論文の概要: Large Language Model Reasoning Failures
- arxiv url: http://arxiv.org/abs/2602.06176v1
- Date: Thu, 05 Feb 2026 20:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.100905
- Title: Large Language Model Reasoning Failures
- Title(参考訳): 失敗を推論する大規模言語モデル
- Authors: Peiyang Song, Pengrui Han, Noah Goodman,
- Abstract要約: 大規模言語モデル(LLM)における推論失敗に関する総合的な調査を初めて紹介する。
我々は、推論をエンボディード型と非エンボディード型に区別する新しい分類フレームワークを導入する。
それぞれの推論失敗に対して、明確な定義を提供し、既存の研究を分析し、根本原因を探究し、緩和戦略を提示する。
- 参考スコア(独自算出の注目度): 3.139060394530521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have exhibited remarkable reasoning capabilities, achieving impressive results across a wide range of tasks. Despite these advances, significant reasoning failures persist, occurring even in seemingly simple scenarios. To systematically understand and address these shortcomings, we present the first comprehensive survey dedicated to reasoning failures in LLMs. We introduce a novel categorization framework that distinguishes reasoning into embodied and non-embodied types, with the latter further subdivided into informal (intuitive) and formal (logical) reasoning. In parallel, we classify reasoning failures along a complementary axis into three types: fundamental failures intrinsic to LLM architectures that broadly affect downstream tasks; application-specific limitations that manifest in particular domains; and robustness issues characterized by inconsistent performance across minor variations. For each reasoning failure, we provide a clear definition, analyze existing studies, explore root causes, and present mitigation strategies. By unifying fragmented research efforts, our survey provides a structured perspective on systemic weaknesses in LLM reasoning, offering valuable insights and guiding future research towards building stronger, more reliable, and robust reasoning capabilities. We additionally release a comprehensive collection of research works on LLM reasoning failures, as a GitHub repository at https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, to provide an easy entry point to this area.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい推論能力を示し、幅広いタスクで素晴らしい成果を上げています。
これらの進歩にもかかわらず、重大な推論失敗は続き、一見単純なシナリオでも発生します。
これらの欠点を体系的に理解し,対処するために,LLMにおける障害推論のための総合的な調査を行った。
本稿では, 推論を具体的・非身体的タイプに区別し, 後者をさらに形式的(直観的)な推論と形式的(論理的)な推論に分割する, 新たな分類枠組みを提案する。
並列的に、補完軸に沿った推論失敗を、3つのタイプに分類する: ダウンストリームタスクに広範囲に影響を及ぼすLLMアーキテクチャに固有の基本失敗、特定のドメインに現れるアプリケーション固有の制限、そして、小さなバリエーションにまたがる不整合性能に特徴付けられる堅牢性の問題。
それぞれの推論失敗に対して、明確な定義を提供し、既存の研究を分析し、根本原因を探究し、緩和戦略を提示する。
断片化研究の成果を統一することにより,LLM推論のシステム的弱点に関する構造化された視点を提供し,より強力で信頼性が高く,堅牢な推論能力を構築するための貴重な洞察を提供し,今後の研究を導く。
さらに私たちは,LSM推論障害に関する包括的な研究成果を,https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-FailuresのGitHubリポジトリとしてリリースしています。
関連論文リスト
- A Survey on Enhancing Causal Reasoning Ability of Large Language Models [15.602788561902038]
大規模言語モデル(LLM)は、最近、言語タスク以降で顕著なパフォーマンスを示している。
LLMは、医療や経済分析などの堅牢な因果推論能力を必要とするタスクを扱う上で、依然として課題に直面している。
本稿では,LLMの因果推論能力の強化に関する文献を体系的にレビューする。
論文 参考訳(メタデータ) (2025-03-12T12:20:31Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。