Fugu-MT 論文翻訳(概要): Large Language Model Reasoning Failures

論文の概要: Large Language Model Reasoning Failures

arxiv url: http://arxiv.org/abs/2602.06176v1
Date: Thu, 05 Feb 2026 20:29:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.100905
Title: Large Language Model Reasoning Failures
Title（参考訳）: 失敗を推論する大規模言語モデル
Authors: Peiyang Song, Pengrui Han, Noah Goodman,
Abstract要約: 大規模言語モデル(LLM)における推論失敗に関する総合的な調査を初めて紹介する。我々は、推論をエンボディード型と非エンボディード型に区別する新しい分類フレームワークを導入する。それぞれの推論失敗に対して、明確な定義を提供し、既存の研究を分析し、根本原因を探究し、緩和戦略を提示する。
参考スコア（独自算出の注目度）: 3.139060394530521
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have exhibited remarkable reasoning capabilities, achieving impressive results across a wide range of tasks. Despite these advances, significant reasoning failures persist, occurring even in seemingly simple scenarios. To systematically understand and address these shortcomings, we present the first comprehensive survey dedicated to reasoning failures in LLMs. We introduce a novel categorization framework that distinguishes reasoning into embodied and non-embodied types, with the latter further subdivided into informal (intuitive) and formal (logical) reasoning. In parallel, we classify reasoning failures along a complementary axis into three types: fundamental failures intrinsic to LLM architectures that broadly affect downstream tasks; application-specific limitations that manifest in particular domains; and robustness issues characterized by inconsistent performance across minor variations. For each reasoning failure, we provide a clear definition, analyze existing studies, explore root causes, and present mitigation strategies. By unifying fragmented research efforts, our survey provides a structured perspective on systemic weaknesses in LLM reasoning, offering valuable insights and guiding future research towards building stronger, more reliable, and robust reasoning capabilities. We additionally release a comprehensive collection of research works on LLM reasoning failures, as a GitHub repository at https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, to provide an easy entry point to this area.
Abstract（参考訳）: 大きな言語モデル(LLM)は目覚ましい推論能力を示し、幅広いタスクで素晴らしい成果を上げています。これらの進歩にもかかわらず、重大な推論失敗は続き、一見単純なシナリオでも発生します。これらの欠点を体系的に理解し,対処するために,LLMにおける障害推論のための総合的な調査を行った。本稿では, 推論を具体的・非身体的タイプに区別し, 後者をさらに形式的(直観的)な推論と形式的(論理的)な推論に分割する, 新たな分類枠組みを提案する。並列的に、補完軸に沿った推論失敗を、3つのタイプに分類する: ダウンストリームタスクに広範囲に影響を及ぼすLLMアーキテクチャに固有の基本失敗、特定のドメインに現れるアプリケーション固有の制限、そして、小さなバリエーションにまたがる不整合性能に特徴付けられる堅牢性の問題。それぞれの推論失敗に対して、明確な定義を提供し、既存の研究を分析し、根本原因を探究し、緩和戦略を提示する。断片化研究の成果を統一することにより,LLM推論のシステム的弱点に関する構造化された視点を提供し,より強力で信頼性が高く,堅牢な推論能力を構築するための貴重な洞察を提供し,今後の研究を導く。さらに私たちは,LSM推論障害に関する包括的な研究成果を,https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-FailuresのGitHubリポジトリとしてリリースしています。

関連論文リスト

Reasoning LLMs are Wandering Solution Explorers [5.3795217858078805]
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文参考訳（メタデータ） (2025-05-26T17:59:53Z)
On the Eligibility of LLMs for Counterfactual Reasoning: A Decompositional Study [15.617243755155686]
対物推論は、大規模言語モデルの推論能力を一般化するための重要な手法として現れてきた。本稿では, 因果関係の構築から, 逆因果関係の介入に対する推論まで, 逆因果関係の生成を分解する分解戦略を提案する。
論文参考訳（メタデータ） (2025-05-17T04:59:32Z)
A Survey on Enhancing Causal Reasoning Ability of Large Language Models [15.602788561902038]
大規模言語モデル(LLM)は、最近、言語タスク以降で顕著なパフォーマンスを示している。 LLMは、医療や経済分析などの堅牢な因果推論能力を必要とするタスクを扱う上で、依然として課題に直面している。本稿では,LLMの因果推論能力の強化に関する文献を体系的にレビューする。
論文参考訳（メタデータ） (2025-03-12T12:20:31Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文参考訳（メタデータ） (2024-10-31T12:48:58Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。