論文の概要: Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis
- arxiv url: http://arxiv.org/abs/2602.10881v1
- Date: Wed, 11 Feb 2026 14:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.97633
- Title: Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis
- Title(参考訳): メタ分析のためのLCMに基づくエビデンス抽出における構造欠陥の診断
- Authors: Zhiyin Tan, Jennifer D'Souza,
- Abstract要約: レビューとメタ分析は、物語を構造化され、数値化された研究記録に変換することに頼っている。
大規模言語モデル(LLM)の急速な進歩にもかかわらず、このプロセスの構造的要件を満たすことができるかどうかは不明だ。
本稿では,LLMに基づくエビデンス抽出をスキーマ制約クエリの進行として評価する構造的診断フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.8193467416247519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systematic reviews and meta-analyses rely on converting narrative articles into structured, numerically grounded study records. Despite rapid advances in large language models (LLMs), it remains unclear whether they can meet the structural requirements of this process, which hinge on preserving roles, methods, and effect-size attribution across documents rather than on recognizing isolated entities. We propose a structural, diagnostic framework that evaluates LLM-based evidence extraction as a progression of schema-constrained queries with increasing relational and numerical complexity, enabling precise identification of failure points beyond atom-level extraction. Using a manually curated corpus spanning five scientific domains, together with a unified query suite and evaluation protocol, we evaluate two state-of-the-art LLMs under both per-document and long-context, multi-document input regimes. Across domains and models, performance remains moderate for single-property queries but degrades sharply once tasks require stable binding between variables, roles, statistical methods, and effect sizes. Full meta-analytic association tuples are extracted with near-zero reliability, and long-context inputs further exacerbate these failures. Downstream aggregation amplifies even minor upstream errors, rendering corpus-level statistics unreliable. Our analysis shows that these limitations stem not from entity recognition errors, but from systematic structural breakdowns, including role reversals, cross-analysis binding drift, instance compression in dense result sections, and numeric misattribution, indicating that current LLMs lack the structural fidelity, relational binding, and numerical grounding required for automated meta-analysis. The code and data are publicly available at GitHub (https://github.com/zhiyintan/LLM-Meta-Analysis).
- Abstract(参考訳): 体系的なレビューとメタ分析は、物語を構造化され、数値化された研究記録に変換することに頼っている。
大規模言語モデル(LLM)の急速な進歩にもかかわらず、このプロセスの構造的要件を満たすことができるかどうかは不明だ。
本稿では,LLMに基づくエビデンス抽出を,リレーショナルおよび数値複雑性の増大を伴うスキーマ制約クエリの進行として評価し,原子レベルの抽出以上の障害点の正確な同定を可能にする構造的,診断的な枠組みを提案する。
5つの科学的領域にまたがる手作業によるコーパスと、統一的なクエリスイートと評価プロトコルを用いて、文書単位と文書単位の長いマルチドキュメント入力方式の両方で、最先端のLLMを2つ評価する。
ドメインやモデル全体では、単一プロパティクエリではパフォーマンスは適度だが、変数、ロール、統計メソッド、エフェクトサイズ間の安定したバインディングが要求されれば、タスクは大幅に低下する。
完全メタ分析アソシエーションタプルをほぼゼロの信頼性で抽出し、長文入力によりこれらの障害をさらに悪化させる。
ダウンストリームアグリゲーションは、小さなアップストリームエラーを増幅し、コーパスレベルの統計を信頼できないものにする。
解析の結果,これらの制限は,役割逆転,クロスアナリシス結合ドリフト,高密度結果区間におけるインスタンス圧縮,数値的ミスアトリビューションなど,構造的構造的欠陥に起因し,現在のLCMには構造的忠実性,関係的結合,自動メタアナリシスに必要な数値的基底が欠如していることが示唆された。
コードとデータはGitHubで公開されている(https://github.com/zhiyintan/LLM-Meta-Analysis)。
関連論文リスト
- DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - From Chaos to Clarity: Schema-Constrained AI for Auditable Biomedical Evidence Extraction from Full-Text PDFs [2.136797327390818]
既存のドキュメントAIシステムは、OCRエラー、長期文書の断片化、制限されたスループット、ハイテイク合成のための監査性に制限されている。
本稿では,フルテキストのバイオメディカルPDFを構造化された解析可能なレコードに変換する,スキーマ制約付きAI抽出システムを提案する。
論文 参考訳(メタデータ) (2025-12-31T00:43:53Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Manalyzer: End-to-end Automated Meta-analysis with Multi-agent System [48.093356587573666]
メタアナリシス(Meta-analysis)は、複数の既存の研究からデータを合成し、包括的な結論を導き出す体系的な研究手法である。
伝統的なメタ分析は、文献検索、紙のスクリーニング、データ抽出を含む複雑な多段階パイプラインを含む。
本稿では,ツールコールによるエンドツーエンドの自動メタ分析を実現するマルチエージェントシステムManalyzerを提案する。
論文 参考訳(メタデータ) (2025-05-22T07:25:31Z) - HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation [39.7293877954587]
HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。
MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。
経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-05-22T06:24:08Z) - DataPuzzle: Breaking Free from the Hallucinated Promise of LLMs in Data Analysis [10.98270220152657]
大規模言語モデル(LLM)は、マルチモーダルデータ分析にますます応用されている。
一般的なPrompt-to-Answer'パラダイムは、LSMをブラックボックスアナリストとして扱う。
複雑な質問を分解する概念的マルチエージェントフレームワークであるDataPuzzleを提案する。
論文 参考訳(メタデータ) (2025-04-14T09:38:23Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。