論文の概要: Exploring LLMs for Scientific Information Extraction Using The SciEx Framework
- arxiv url: http://arxiv.org/abs/2512.10004v1
- Date: Wed, 10 Dec 2025 19:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.015821
- Title: Exploring LLMs for Scientific Information Extraction Using The SciEx Framework
- Title(参考訳): SciExフレームワークを用いた科学情報抽出のためのLCMの探索
- Authors: Sha Li, Ayush Sadekar, Nathan Self, Yiqi Su, Lars Andersland, Mira Chaplin, Annabel Zhang, Hyoju Yang, James B Henderson, Krista Wigginton, Linsey Marr, T. M. Murali, Naren Ramakrishnan,
- Abstract要約: 大規模言語モデル(LLM)は、科学的情報抽出を自動化する強力なツールとして評価されている。
本稿では,PDF解析,マルチモーダル検索,抽出,集約といった主要なコンポーネントを分離するモジュール・コンポーザブルなフレームワークであるSciExを紹介する。
SciExを3つの科学的トピックにまたがるデータセット上で評価し,詳細な情報を正確かつ一貫して抽出する能力について検討した。
- 参考スコア(独自算出の注目度): 12.534492015126757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly touted as powerful tools for automating scientific information extraction. However, existing methods and tools often struggle with the realities of scientific literature: long-context documents, multi-modal content, and reconciling varied and inconsistent fine-grained information across multiple publications into standardized formats. These challenges are further compounded when the desired data schema or extraction ontology changes rapidly, making it difficult to re-architect or fine-tune existing systems. We present SciEx, a modular and composable framework that decouples key components including PDF parsing, multi-modal retrieval, extraction, and aggregation. This design streamlines on-demand data extraction while enabling extensibility and flexible integration of new models, prompting strategies, and reasoning mechanisms. We evaluate SciEx on datasets spanning three scientific topics for its ability to extract fine-grained information accurately and consistently. Our findings provide practical insights into both the strengths and limitations of current LLM-based pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学的な情報抽出を自動化する強力なツールとして、ますます注目されている。
しかし、既存の方法やツールは、長いコンテキストの文書、マルチモーダルな内容、様々な出版物にまたがる様々なきめ細かな情報を標準化された形式に整合させるといった、科学文献の現実に苦しむことが多い。
これらの課題は、望ましいデータスキーマや抽出オントロジーが急速に変化するとさらに複雑になるため、既存のシステムを再構築したり、微調整するのは難しい。
本稿では,PDF解析,マルチモーダル検索,抽出,集約といった主要なコンポーネントを分離するモジュール・コンポーザブルなフレームワークであるSciExを紹介する。
この設計は、新しいモデルの拡張性とフレキシブルな統合、戦略の推進、推論メカニズムを可能にしながら、オンデマンドデータの抽出を効率化する。
SciExを3つの科学的トピックにまたがるデータセット上で評価し,詳細な情報を正確かつ一貫して抽出する能力について検討した。
本研究は,現在のLLMパイプラインの強度と限界について,実用的な知見を提供するものである。
関連論文リスト
- Large language models in materials science and the need for open-source approaches [3.35950184561189]
材料発見パイプライン全体にわたる最近の大規模言語モデル(LLM)の応用についてレビューする。
テキストから合成条件などの貴重な情報をLLMがどのように抽出するかを強調した。
ベンチマーク結果によると、オープンソースの代替手段は、透明性、コスト効率、データプライバシを提供しながら、パフォーマンスにマッチする可能性がある。
オープンソースモデルの改善が進むにつれて、科学的な発見のためにアクセスしやすく、柔軟で、コミュニティ主導のAIプラットフォームを構築するための、より広範な採用を提唱します。
論文 参考訳(メタデータ) (2025-11-10T00:05:20Z) - LeMat-Synth: a multi-modal toolbox to curate broad synthesis procedure databases from scientific literature [60.879220305044726]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いて合成手順と性能データを自動抽出・整理するマルチモーダルツールボックスを提案する。
LeMat-Synth (v 1.0):35種類の合成法と16種類の材料クラスにまたがる合成手順を含むデータセット。
我々は,新しいコーパスと合成ドメインへのコミュニティ主導の拡張をサポートするために設計された,モジュール形式のオープンソースライブラリをリリースする。
論文 参考訳(メタデータ) (2025-10-28T17:58:18Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Context-Aware Scientific Knowledge Extraction on Linked Open Data using Large Language Models [0.0]
本稿では,クエリ固有の知識を抽出し,洗練し,ランク付けするシステムであるWISE(Workflow for Intelligent Scientific Knowledge extract)を紹介する。
WISEは、様々な情報源から知識を体系的に探求し、合成することによって、詳細な、組織化された回答を提供する。
論文 参考訳(メタデータ) (2025-06-21T04:22:34Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Collage: Decomposable Rapid Prototyping for Information Extraction on Scientific PDFs [15.610004991273005]
コラージュ(Colllage)は, 科学的PDF上での様々な情報抽出モデルの高速なプロトタイピング, 可視化, 評価を目的としたツールである。
NLPベースのツールの開発者とユーザの両方が、中間状態の詳細なビューを提供することで、パイプラインの検査、デバッグ、理解を深めることができます。
論文 参考訳(メタデータ) (2024-10-30T22:00:34Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - MatViX: Multimodal Information Extraction from Visually Rich Articles [6.349779979863784]
材料科学では、研究論文から構造化情報を抽出することで、新しい素材の発見を加速することができる。
textscMatViXは、324ドルのフル長の調査記事と1688ドルの複雑な構造化ファイルからなるベンチマークです。
これらのファイルは、テキスト、テーブル、フィギュアからフル長の文書から抽出され、MIEにとって包括的な課題となる。
論文 参考訳(メタデータ) (2024-10-27T16:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。