論文の概要: MixRea: Benchmarking Explicit-Implicit Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.20128v1
- Date: Tue, 19 May 2026 17:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.549877
- Title: MixRea: Benchmarking Explicit-Implicit Reasoning in Large Language Models
- Title(参考訳): MixRea: 大規模言語モデルにおける明示型推論のベンチマーク
- Authors: Yuanqing Cai, Ziyi Huang, Minhao Liu, Lixin Duan, Wen Li, Yanru Zhang,
- Abstract要約: 本研究では,大規模言語モデル (LLM) が明示的なタスク命令の下で,微妙に重要な文脈的手がかりに適合しないかどうかを考察する。
21個の高度なLCMの評価は、最も優れた推論モデル(Gemini 2.5 Pro)でさえ42.8%の一貫性しか達成していないことを示している。
我々は,見落としている因果関係を回復して推論を改善するプロンプト法であるtextbfPotential Relation Completion Prompting (PRCP)を提案する。
- 参考スコア(独自算出の注目度): 30.821682013821345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly integrated into high-stakes decision-making. Inspired by the theory of \emph{inattentional blindness} in human cognition, we investigate whether LLMs, trained on human-preferred corpora that embed attentional biases, exhibit a similar limitation: \emph{failing to attend to subtle yet important contextual cues under explicit task instructions}. To evaluate this, we introduce the task of \textbf{explicit-implicit reasoning} and present \textbf{MixRea}, a benchmark of 2,246 multiple-choice questions across 9 reasoning types with varying distributions of explicit and implicit information. Evaluation of 21 advanced LLMs shows that even the best-performing reasoning model (Gemini 2.5 Pro) achieves only 42.8\% consistency, revealing widespread inattentional blindness. To mitigate this, we propose \textbf{Potential Relation Completion Prompting (PRCP)}, a prompting method that improves reasoning by recovering overlooked causal relations. Further analysis shows that this limitation persists across diverse multi-source reasoning tasks, highlighting the need for more cognitively aligned models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高い意思決定にますます統合されている。
人間の認知における「emph{inattentional blindness」理論に触発されて、注意バイアスを埋め込んだ人間優先コーパスで訓練されたLLMが、同様の制限を呈するかどうかを調査する。
これを評価するために、明示的および暗黙的な情報の分布の異なる9つの推論型にわたる2,246の多重選択質問のベンチマークである、textbf{explicit-implicit reasoning} と現在の \textbf{MixRea} のタスクを導入する。
21個の高度なLCMの評価は、最も優れた推論モデル(Gemini 2.5 Pro)でさえ42.8 %の一貫性しか達成せず、意図しない失明が広まっていたことを示している。
これを軽減するために,見落としている因果関係を復元して推論を改善するプロンプト法である「textbf{Potential Relation Completion Prompting (PRCP)」を提案する。
さらなる分析は、この制限が様々なマルチソース推論タスクにまたがって持続し、より認知的に整合したモデルの必要性を強調していることを示している。
関連論文リスト
- Pause or Fabricate? Training Language Models for Grounded Reasoning [50.104657152302956]
不完全情報に基づくグラウンドド推論のために,対話型強化学習(GRIL)によるグラウンドド推論を提案する。
GRILは推論プロセスを2つの段階に分解する: 明確化と一時停止、利用可能な情報が十分かどうかを識別する。
GSM8K-InsufficientおよびMetaMATH-Insufficientの実験では、GRILは前提検出を大幅に改善し(最大45%)、平均応答長を20%以上削減しながらタスク成功率が30%向上した。
論文 参考訳(メタデータ) (2026-04-21T16:45:29Z) - Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文 参考訳(メタデータ) (2025-12-01T14:35:06Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance [33.16322104912836]
大規模言語モデル (LLM) の推論は、主にチェーン・オブ・シント (CoT) のアプローチによるものである。
LLMは、推論に関連する質問に応答するときに、長くて詳細なCoT経路を提供するように、命令調整される。
人間は自然に認知的な惨事であり、言語モデルにかなり短い反応を与えるよう促す。
論文 参考訳(メタデータ) (2025-04-13T14:12:14Z) - Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning [5.4141465747474475]
大規模言語モデル(LLM)は、人間のようなテキストを生成し、適度な複雑さの問題を解くことで、顕著な性能を達成した。
概念ネット知識グラフを用いて,LLMにおける抽象的常識推論を体系的に評価する。
論文 参考訳(メタデータ) (2025-02-19T20:20:24Z) - Preemptive Answer "Attacks" on Chain-of-Thought Reasoning [7.233752893356647]
大きな言語モデル(LLM)は、Chain-of-Thoughtプロンプトと組み合わせることで、印象的な推論機能を示す。
本稿では, LLMが推論に係わる前に解答を得る, プリエンプティブな解答という新しいシナリオを紹介する。
実験により、プリエンプティブな回答は、さまざまなCoTメソッドと幅広いデータセットにわたるモデルの推論能力を著しく損なうことが明らかになった。
論文 参考訳(メタデータ) (2024-05-31T15:15:04Z) - OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。
誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。