論文の概要: Large Language Models for Full-Text Methods Assessment: A Case Study on Mediation Analysis
- arxiv url: http://arxiv.org/abs/2510.10762v1
- Date: Sun, 12 Oct 2025 19:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.096501
- Title: Large Language Models for Full-Text Methods Assessment: A Case Study on Mediation Analysis
- Title(参考訳): フルテキスト手法評価のための大規模言語モデル:メディエーション分析のケーススタディ
- Authors: Wenqing Zhang, Trang Nguyen, Elizabeth A. Stuart, Yiqun T. Chen,
- Abstract要約: 大規模言語モデル(LLM)は方法論的評価の自動化の可能性を秘めている。
我々は180のフルテキストの科学論文に対して、最先端のLLMを専門家の人間レビュアーに対してベンチマークした。
- 参考スコア(独自算出の注目度): 15.98124151893659
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Systematic reviews are crucial for synthesizing scientific evidence but remain labor-intensive, especially when extracting detailed methodological information. Large language models (LLMs) offer potential for automating methodological assessments, promising to transform evidence synthesis. Here, using causal mediation analysis as a representative methodological domain, we benchmarked state-of-the-art LLMs against expert human reviewers across 180 full-text scientific articles. Model performance closely correlated with human judgments (accuracy correlation 0.71; F1 correlation 0.97), achieving near-human accuracy on straightforward, explicitly stated methodological criteria. However, accuracy sharply declined on complex, inference-intensive assessments, lagging expert reviewers by up to 15%. Errors commonly resulted from superficial linguistic cues -- for instance, models frequently misinterpreted keywords like "longitudinal" or "sensitivity" as automatic evidence of rigorous methodological approache, leading to systematic misclassifications. Longer documents yielded lower model accuracy, whereas publication year showed no significant effect. Our findings highlight an important pattern for practitioners using LLMs for methods review and synthesis from full texts: current LLMs excel at identifying explicit methodological features but require human oversight for nuanced interpretations. Integrating automated information extraction with targeted expert review thus provides a promising approach to enhance efficiency and methodological rigor in evidence synthesis across diverse scientific fields.
- Abstract(参考訳): 体系的レビューは科学的証拠の合成には不可欠であるが、特に詳細な方法論情報を抽出する場合は労働集約的である。
大規模言語モデル(LLM)は方法論的評価を自動化する可能性を提供し、エビデンス合成を変革することを約束する。
そこで本研究では,因果媒介分析を代表的な方法論領域として用い,180のフルテキスト科学論文を対象とした,最先端のLCMを専門家の人間レビュアーに対してベンチマークした。
モデル性能は人間の判断と密接に相関し(精度相関0.71; F1相関0.97)、単純で明確な方法論的基準に基づいてほぼ人間に近い精度を達成する。
しかし、複雑な推測集約的な評価で精度が急落し、専門家レビュアーは最大15%下がった。
例えば、"longitudinal" や "sensitivity" といったキーワードを厳密な方法論的アプローチの自動的な証拠として誤って解釈し、体系的な誤分類へと繋がった。
より長い文書ではモデル精度が低くなり,出版年は有意な影響は認められなかった。
本研究は, LLMを用いた手法の検証と全文からの合成を行う実践者にとって重要なパターンである, 現在のLCMは, 明示的な方法論的特徴の同定に優れるが, ニュアンスド解釈には人間の監督を必要とする。
対象とする専門家のレビューと自動情報抽出を統合することで、様々な科学分野における証拠合成における効率性と方法論的厳密性を高めるための有望なアプローチを提供する。
関連論文リスト
- Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - Text-Based Approaches to Item Difficulty Modeling in Large-Scale Assessments: A Systematic Review [18.045716459188366]
アイテムの難しさは、テストパフォーマンス、スコアの解釈可能性、そして、特に大規模な評価において、すべてのテストテイカーにとって重要な役割を担います。
アイテム困難モデリングへの伝統的なアプローチは、フィールドテストと古典的テスト理論(CTT)に基づくアイテム分析またはアイテム応答理論(IRT)キャリブレーションに依存している。
本稿では,2025年5月までの大規模評価設定において,自動項目難易度予測に関する37項目をレビューし,合成する。
論文 参考訳(メタデータ) (2025-09-27T20:19:39Z) - Avaliação de eficiência na leitura: uma abordagem baseada em PLN [0.0]
本研究では,ブラジルポルトガル語におけるクローゼテストの自動評価モデルを提案する。
統合された手法は,その有効性を示し,人的評価と高い相関性を示した。
論文 参考訳(メタデータ) (2025-08-18T02:21:12Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Empowering Meta-Analysis: Leveraging Large Language Models for Scientific Synthesis [7.059964549363294]
本研究では,大規模言語モデル(LLM)を用いた科学文献におけるメタアナリシスの自動化について検討する。
ビッグデータ処理と構造化データ抽出の課題に対処するため,LLMを広範囲の科学的データセットに微調整する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-16T20:18:57Z) - Enhancing Spectral Knowledge Interrogation: A Reliable Retrieval-Augmented Generative Framework on Large Language Models [0.0]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて、一般領域内で大きな成功を収めている。
本稿では,SDAAP(Spectral Detection and Analysis Based Paper)データセットを紹介する。
また、SDAAPデータセットに基づく自動Q&Aフレームワークを設計し、関連する知識を検索し、高品質な応答を生成する。
論文 参考訳(メタデータ) (2024-08-21T12:09:37Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Uncertainty in Automated Ontology Matching: Lessons Learned from an
Empirical Experimentation [6.491645162078057]
オントロジは、相互運用によるデータセットのリンクとセマンティック統合において重要な役割を果たす。
本稿では、オントロジーマッチングに基づく手法を用いて、アプリケーションの観点からデータ統合にアプローチする。
論文 参考訳(メタデータ) (2023-10-18T05:42:51Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。