論文の概要: SciDef: Automating Definition Extraction from Academic Literature with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.05413v1
- Date: Thu, 05 Feb 2026 07:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.825317
- Title: SciDef: Automating Definition Extraction from Academic Literature with Large Language Models
- Title(参考訳): SciDef:大規模言語モデルを用いた学術文献からの定義抽出の自動化
- Authors: Filip Kučera, Christoph Mandl, Isao Echizen, Radu Timofte, Timo Spinde,
- Abstract要約: SciDefは、自動定義抽出のためのLLMベースのパイプラインである。
DefExtra & DefSimでは,人間の抽出した定義と定義ペアの類似性の新たなデータセットであるSciDefをテストする。
- 参考スコア(独自算出の注目度): 42.50759003781739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Definitions are the foundation for any scientific work, but with a significant increase in publication numbers, gathering definitions relevant to any keyword has become challenging. We therefore introduce SciDef, an LLM-based pipeline for automated definition extraction. We test SciDef on DefExtra & DefSim, novel datasets of human-extracted definitions and definition-pairs' similarity, respectively. Evaluating 16 language models across prompting strategies, we demonstrate that multi-step and DSPy-optimized prompting improve extraction performance. To evaluate extraction, we test various metrics and show that an NLI-based method yields the most reliable results. We show that LLMs are largely able to extract definitions from scientific literature (86.4% of definitions from our test-set); yet future work should focus not just on finding definitions, but on identifying relevant ones, as models tend to over-generate them. Code & datasets are available at https://github.com/Media-Bias-Group/SciDef.
- Abstract(参考訳): 定義は科学的な研究の基盤となっているが、出版数の増加に伴い、あらゆるキーワードに関する定義の収集が困難になっている。
したがって、自動定義抽出のためのLLMベースのパイプラインであるSciDefを導入する。
DefExtra と DefSim で SciDef をテストする。
提案手法を用いて16言語モデルの評価を行い,マルチステップおよびDSPy最適化により抽出性能が向上することが実証された。
抽出結果を評価するために,NLIに基づく手法で最も信頼性の高い結果が得られることを示す。
LLMは科学文献から定義を抽出できる(テストセットの定義の86.4%)が、将来の研究は定義の発見だけでなく、モデルが過剰に生成する傾向があるため、関連する定義の特定にも焦点をあてるべきである。
コードとデータセットはhttps://github.com/Media-Bias-Group/SciDefで入手できる。
関連論文リスト
- Towards Automated Lexicography: Generating and Evaluating Definitions for Learner's Dictionaries [37.91511820811209]
辞書定義生成(DDG)、すなわち、与えられた見出しに対する非文脈定義の生成について研究する。
具体的には,学習者の辞書定義生成(LDDG)に対処する。
論文 参考訳(メタデータ) (2026-01-05T07:11:24Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - ANLS* -- A Universal Document Processing Metric for Generative Large Language Models [40.94659575657584]
本稿ではANLS*と呼ばれる生成モデルを評価するための新しい指標を提案する。
ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。
また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
論文 参考訳(メタデータ) (2024-02-06T09:50:08Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - PSG: Prompt-based Sequence Generation for Acronym Extraction [26.896811663334162]
頭字語抽出タスクのためのPrompt-based Sequence Generation (PSG) 手法を提案する。
具体的には、抽出した頭字語テキストを自動回帰でプロンプトするテンプレートを設計する。
生成した回答の位置を抽出する位置抽出アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-11-29T02:14:38Z) - CDM: Combining Extraction and Generation for Definition Modeling [8.487707405248242]
本稿では,定義モデリングのための抽出と生成を組み合わせることを提案する。
まず、Webから対象用語の自己および相関的な定義情報を抽出する。
そして、抽出した定義情報を組み込んで最終定義を生成する。
論文 参考訳(メタデータ) (2021-11-14T08:03:18Z) - Toward Cross-Lingual Definition Generation for Language Learners [10.45755551957024]
我々は、様々な言語の単語に対して、英語で定義を生成することを提案する。
モデルは、英語データセットでトレーニングされた後、他の言語に直接適用することができる。
実験と手動解析により,我々のモデルは強い言語間移動能力を有することが示された。
論文 参考訳(メタデータ) (2020-10-12T08:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。