論文の概要: Evaluating LLMs for Zeolite Synthesis Event Extraction (ZSEE): A Systematic Analysis of Prompting Strategies
- arxiv url: http://arxiv.org/abs/2512.15312v1
- Date: Wed, 17 Dec 2025 11:02:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.949588
- Title: Evaluating LLMs for Zeolite Synthesis Event Extraction (ZSEE): A Systematic Analysis of Prompting Strategies
- Title(参考訳): ゼオライト合成イベント抽出(ZSEE)のためのLCMの評価 : プロンプティング戦略の体系的解析
- Authors: Charan Prakash Rathore, Saumi Ray, Dhruv Kumar,
- Abstract要約: 大規模言語モデルを適用する場合、異なるプロンプト戦略の有効性はどのようなものか?
イベントタイプ分類、テキスト識別のトリガー、引数ロール抽出、引数テキスト抽出の4つの重要なサブタスクに焦点を当てる。
我々は、ゼロショット、少数ショット、イベント特化、リフレクションベースの4つのプロンプト戦略を、6つの最先端LCMで評価した。
- 参考スコア(独自算出の注目度): 1.3986052226424095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting structured information from zeolite synthesis experimental procedures is critical for materials discovery, yet existing methods have not systematically evaluated Large Language Models (LLMs) for this domain-specific task. This work addresses a fundamental question: what is the efficacy of different prompting strategies when applying LLMs to scientific information extraction? We focus on four key subtasks: event type classification (identifying synthesis steps), trigger text identification (locating event mentions), argument role extraction (recognizing parameter types), and argument text extraction (extracting parameter values). We evaluate four prompting strategies - zero-shot, few-shot, event-specific, and reflection-based - across six state-of-the-art LLMs (Gemma-3-12b-it, GPT-5-mini, O4-mini, Claude-Haiku-3.5, DeepSeek reasoning and non-reasoning) using the ZSEE dataset of 1,530 annotated sentences. Results demonstrate strong performance on event type classification (80-90\% F1) but modest performance on fine-grained extraction tasks, particularly argument role and argument text extraction (50-65\% F1). GPT-5-mini exhibits extreme prompt sensitivity with 11-79\% F1 variation. Notably, advanced prompting strategies provide minimal improvements over zero-shot approaches, revealing fundamental architectural limitations. Error analysis identifies systematic hallucination, over-generalization, and inability to capture synthesis-specific nuances. Our findings demonstrate that while LLMs achieve high-level understanding, precise extraction of experimental parameters requires domain-adapted models, providing quantitative benchmarks for scientific information extraction.
- Abstract(参考訳): ゼオライト合成実験の手順から構造化情報を抽出することは材料発見にとって重要であるが、既存の手法ではこの領域固有のタスクに対して体系的にLarge Language Models (LLM) を評価していない。
この研究は、科学情報抽出にLLMを適用する際、異なるプロンプト戦略の有効性という根本的な問題に対処する。
イベントタイプ分類(合成ステップの識別),テキスト識別(イベント参照のロケーション),引数ロール抽出(パラメータ型認識),引数テキスト抽出(パラメータ値抽出)の4つの重要なサブタスクに注目した。
我々は、ZSEEデータセット1,530の注釈文を用いて、ゼロショット、少数ショット、イベント固有、リフレクションベースの4つのプロンプト戦略(Gemma-3-12b-it, GPT-5-mini, O4-mini, Claude-Haiku-3.5, DeepSeek reasoning and non-reasoning)を評価した。
その結果、イベントタイプ分類(80-90\% F1)では高い性能を示したが、細粒度抽出タスク、特に引数ロールと引数テキスト抽出(50-65\% F1)では控えめな性能を示した。
GPT-5-mini は 11-79 % F1 変異で極端に迅速な感度を示す。
特に、高度なプロンプト戦略はゼロショットアプローチよりも最小限の改善を提供し、基本的なアーキテクチャ上の制限を明らかにします。
エラー解析は、体系的な幻覚、過剰な一般化、および合成固有のニュアンスを捕捉できないことを識別する。
実験パラメータの精密抽出には領域適応型モデルが必要であり,科学的情報抽出のための定量的ベンチマークを提供する。
関連論文リスト
- Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screening: Relevance and Task-Stage Classification [1.2234742322758418]
本研究では,大規模言語モデル (LLM) と戦略がどう相互作用するかを定量化し,体系的な文献レビューのスクリーニング段階を自動化する。
GPT-4o, GPT-4o-mini, DeepSeek-Chat-V3, Gemini-2.5-Flash, Claude-3.5-Haiku, Llama-4-Maverickの6種類のLCMを5種類のプロンプト型で評価した。
CoT-Few-shotは、最も信頼性の高い精度とリコールのバランス、ゼロショットは高感度パスのリコールを最大化し、自己反射はモデル全体の過度な傾きと不安定さによって不利益となる。
論文 参考訳(メタデータ) (2025-10-17T16:53:09Z) - LLM, Reporting In! Medical Information Extraction Across Prompting, Fine-tuning and Post-correction [6.180091953616749]
本研究は,バイオメディカル名称認識(NER)とフランス語における健康イベント抽出に関するEvalLLM 2025チャレンジへの参加を示す。
NERでは,大規模言語モデル(LLM),ガイドラインガイドライン,合成データ,後処理を組み合わせた3つのアプローチを提案する。
GPT-4.1はNERが61.53%、イベント抽出が15.02%である。
論文 参考訳(メタデータ) (2025-10-03T23:59:40Z) - What Level of Automation is "Good Enough"? A Benchmark of Large Language Models for Meta-Analysis Data Extraction [0.3441021278275805]
本研究は, 統計結果, リスク・オブ・バイアス評価, 研究レベルの諸課題における3つのLCMの実用的性能を評価する。
抽出品質を改善する方法を決定するために,4つの異なるプロンプト戦略を検証した。
カスタマイズされたプロンプトが最も効果的で 最大15%のリコールを加速しました
論文 参考訳(メタデータ) (2025-07-20T23:09:04Z) - Retrieval-Enhanced Few-Shot Prompting for Speech Event Extraction [0.0]
音声イベント抽出(SpeechEE)は、音声認識(ASR)と自然言語処理(NLP)の交差点に位置する課題である。
本稿では,Large Language Models (LLM) のセマンティック検索強化プロンプトと高性能ASRを統合したモジュール型パイプラインベースのSpeechEEフレームワークを提案する。
この結果から,LLMに強化されたパイプラインアプローチは,エンド・ツー・エンドのシステムに匹敵する,あるいは超越できることを示した。
論文 参考訳(メタデータ) (2025-04-30T07:10:10Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Comparative Study of Domain Driven Terms Extraction Using Large Language Models [0.0]
キーワードは、人間の理解とテキストデータの機械処理のギャップを埋める上で重要な役割を果たす。
本稿では,Llama2-7B,GPT-3.5,Falcon-7Bの3つの主要言語モデル (LLM) の利用を強調したキーワード抽出手法について述べる。
論文 参考訳(メタデータ) (2024-04-02T22:04:51Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [51.87391234815163]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。