Fugu-MT 論文翻訳(概要): METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models

論文の概要: METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2604.11502v2
Date: Thu, 16 Apr 2026 13:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 16:09:14.16209
Title: METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models
Title（参考訳）: METER:大規模言語モデルにおけるマルチレベルコンテキスト因果推論の評価
Authors: Pengfeng Li, Chen Huang, Chaoqun Hao, Hongyao Chen, Xiao-Yong Wei, Wenqiang Lei, See-Kiong Ng,
Abstract要約: コンテキスト因果推論は、大規模言語モデルにとって重要なが難しい能力である。既存のベンチマークでは、コンテキスト整合性を保証するか、完全な因果階層をカバーすることができない。私たちはMETERの先駆者であり、因果はしごの3つのレベルすべてにわたってLSMを体系的にベンチマークしました。
参考スコア（独自算出の注目度）: 61.33372454250959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contextual causal reasoning is a critical yet challenging capability for Large Language Models (LLMs). Existing benchmarks, however, often evaluate this skill in fragmented settings, failing to ensure context consistency or cover the full causal hierarchy. To address this, we pioneer METER to systematically benchmark LLMs across all three levels of the causal ladder under a unified context setting. Our extensive evaluation of various LLMs reveals a significant decline in proficiency as tasks ascend the causal hierarchy. To diagnose this degradation, we conduct a deep mechanistic analysis via both error pattern identification and internal information flow tracing. Our analysis reveals two primary failure modes: (1) LLMs are susceptible to distraction by causally irrelevant but factually correct information at lower level of causality; and (2) as tasks ascend the causal hierarchy, faithfulness to the provided context degrades, leading to a reduced performance. We belive our work advances our understanding of the mechanisms behind LLM contextual causal reasoning and establishes a critical foundation for future research. Our code and dataset are available at https://github.com/SCUNLP/METER .
Abstract（参考訳）: 文脈因果推論は、Large Language Models (LLMs) にとって重要かつ困難な能力である。しかし、既存のベンチマークでは、しばしばこのスキルを断片化された設定で評価し、コンテキスト整合性を確保したり、完全な因果階層をカバーできなかった。この問題を解決するため、我々はMETERの先駆者となり、統一されたコンテキスト設定の下で、因果はしごの3つのレベルすべてにわたってLSMを体系的にベンチマークした。各種LCMを広範囲に評価した結果,タスクが因果階層を上昇するにつれて,習熟度が著しく低下することが明らかとなった。この劣化を診断するために,エラーパターンの同定と内部情報フローの追跡による深い力学解析を行う。分析の結果, 1) LLMは因果関係のないが, 因果関係の低いレベルにおいて, 事実的に正しい情報によって注意をそらすことができ, 2) タスクが因果的階層を上昇するにつれて, 与えられた文脈への忠実度が低下し, 性能が低下することがわかった。我々は、LLMの文脈因果推論の背後にあるメカニズムの理解を深め、将来の研究の重要な基盤を確立する。私たちのコードとデータセットはhttps://github.com/SCUNLP/METER で公開されています。

関連論文リスト

From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。 LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文参考訳（メタデータ） (2026-04-01T11:40:12Z)
How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities [75.10343190811592]
大規模言語モデル(LLM)は、社会的に敏感なドメインにますますデプロイされる。私たちのベンチマークでは、安全で制御可能な振る舞いのための原則的で解釈可能なフレームワークを提供しています。
論文参考訳（メタデータ） (2026-03-03T03:50:13Z)
Large Language Model Reasoning Failures [3.139060394530521]
大規模言語モデル(LLM)における推論失敗に関する総合的な調査を初めて紹介する。我々は、推論をエンボディード型と非エンボディード型に区別する新しい分類フレームワークを導入する。それぞれの推論失敗に対して、明確な定義を提供し、既存の研究を分析し、根本原因を探究し、緩和戦略を提示する。
論文参考訳（メタデータ） (2026-02-05T20:29:26Z)
Exploring the Meta-level Reasoning of Large Language Models via a Tool-based Multi-hop Tabular Question Answering Task [0.0]
我々はメタレベルの推論とオブジェクトレベルの推論を区別し、より構造化されたアプローチを取る。我々は,様々な国における地政学的指標の値に基づいて,新たな質問応答タスクを設計する。 LLMはタスクに対して優れたメタレベルの推論を示すが、タスク理解のいくつかの面では欠点がある。
論文参考訳（メタデータ） (2026-01-12T16:29:21Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。