論文の概要: Reasoning Can Hurt the Inductive Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24225v1
- Date: Fri, 30 May 2025 05:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.781902
- Title: Reasoning Can Hurt the Inductive Abilities of Large Language Models
- Title(参考訳): 推論は、大言語モデルの帰納的能力を引き出すことができる
- Authors: Haibo Jin, Peiyan Zhang, Man Luo, Haohan Wang,
- Abstract要約: しばしば、Large Reasoning Models (LRM) で用いられるように、チェーン・オブ・シント(CoT)はそのような推論を促進すると仮定される。
隠れた人間定義ルールでゲームベースの4つの制御されたタスクを作成することで、この仮定を考察する。
CoT推論は帰納的性能を低下させる可能性があり, LRMは非推論的性能を低下させることが多い。
- 参考スコア(独自算出の注目度): 16.996890415549952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable progress across domains, yet their ability to perform inductive reasoning - inferring latent rules from sparse examples - remains limited. It is often assumed that chain-of-thought (CoT) prompting, as used in Large Reasoning Models (LRMs), enhances such reasoning. We investigate this assumption with creating four controlled, diagnostic game-based tasks - chess, Texas Hold'em, dice games, and blackjack - with hidden human-defined rules. We find that CoT reasoning can degrade inductive performance, with LRMs often underperforming their non-reasoning counterparts. To explain this, we present a theoretical framework that reveals how reasoning steps can amplify error through three failure modes: incorrect sub-task decomposition, incorrect sub-task solving, and incorrect final answer summarization. Based on our theoretical and empirical analysis, we introduce structured interventions that adapt CoT generation according to our identified failure types. These interventions improve inductive accuracy without retraining. Our findings suggest that effective (CoT) reasoning depends not only on taking more steps but also on ensuring those steps are well-structured.
- Abstract(参考訳): 大きな言語モデル(LLM)はドメイン間で顕著な進歩を見せていますが、帰納的推論(sparse example)から潜在ルールを推論する能力は限定的です。
しばしば、Large Reasoning Models (LRM) で用いられるように、チェーン・オブ・シント(CoT)はそのような推論を促進すると仮定される。
この仮定は、チェス、テキサスホールドエム、サイコロゲーム、ブラックジャックの4つのコントロールされた診断ゲームベースのタスクを、人間の定義したルールで生成することで検証する。
CoT推論は帰納的性能を低下させる可能性があり, LRMは非推論的性能を低下させることが多い。
そこで本論文では,3つの障害モード – 不正なサブタスク分解,不正なサブタスク解決,不正な最終回答要約 – を通じて,推論ステップがエラーを増幅する方法を示す理論的枠組みを提案する。
理論的および経験的分析に基づいて,CoT生成に適応する構造的介入を導入する。
これらの介入は、再訓練せずに誘導精度を向上させる。
以上の結果から, 有効性(CoT)推論は, より多くのステップを踏むだけでなく, それらのステップが適切に構造化されていることの保証にも依存することが示唆された。
関連論文リスト
- The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。
我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。
結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文 参考訳(メタデータ) (2025-07-14T01:14:50Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Controllable Logical Hypothesis Generation for Abductive Reasoning in Knowledge Graphs [54.596180382762036]
知識グラフの帰納的推論は、観測された実体からもっともらしい論理的仮説を生成することを目的としている。
可制御性の欠如により、単一の観測は、多くの妥当だが冗長あるいは無関係な仮説をもたらす可能性がある。
帰納的推論の実用性を改善するために,制御可能な仮説生成タスクを導入する。
論文 参考訳(メタデータ) (2025-05-27T09:36:47Z) - When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [16.659986373052217]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。
CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。
パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。
DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。
DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文 参考訳(メタデータ) (2025-02-26T17:59:27Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。