論文の概要: Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
- arxiv url: http://arxiv.org/abs/2508.01191v2
- Date: Tue, 05 Aug 2025 10:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 13:15:14.115005
- Title: Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
- Title(参考訳): LLMの連鎖推論はミラージュか? : データ分散レンズ
- Authors: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu,
- Abstract要約: CoT(Chain-of-Thought)プロンプトにより,様々なタスクにおいてLLM(Large Language Model)のパフォーマンスが向上することが示されている。
しかしながら、いくつかの初期の発見は、CoT推論が見かけよりも表面的であることを示唆している。
- 参考スコア(独自算出の注目度): 23.326813303795692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting has been shown to improve Large Language Model (LLM) performance on various tasks. With this approach, LLMs appear to produce human-like reasoning steps before providing answers (a.k.a., CoT reasoning), which often leads to the perception that they engage in deliberate inferential processes. However, some initial findings suggest that CoT reasoning may be more superficial than it appears, motivating us to explore further. In this paper, we study CoT reasoning via a data distribution lens and investigate if CoT reasoning reflects a structured inductive bias learned from in-distribution data, allowing the model to conditionally generate reasoning paths that approximate those seen during training. Thus, its effectiveness is fundamentally bounded by the degree of distribution discrepancy between the training data and the test queries. With this lens, we dissect CoT reasoning via three dimensions: task, length, and format. To investigate each dimension, we design DataAlchemy, an isolated and controlled environment to train LLMs from scratch and systematically probe them under various distribution conditions. Our results reveal that CoT reasoning is a brittle mirage that vanishes when it is pushed beyond training distributions. This work offers a deeper understanding of why and when CoT reasoning fails, emphasizing the ongoing challenge of achieving genuine and generalizable reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトにより,様々なタスクにおいてLLM(Large Language Model)のパフォーマンスが向上することが示されている。
このアプローチでは、LCMは答え(例えばCoT推論)を提供する前に人間のような推論ステップを生成するように見え、しばしば故意の推論プロセスに関与しているという認識につながる。
しかし、いくつかの初期の発見は、CoT推論が見かけよりも表面的であることを示唆し、さらなる探索を動機付けている。
本稿では,データ分散レンズを用いたCoT推論について検討し,CoT推論が分布内データから得られた構造的帰納的バイアスを反映しているかどうかを考察し,トレーニング中に見られたことを近似した推論経路を条件付きで生成できるようにする。
したがって、その有効性は、トレーニングデータとテストクエリ間の分布差の度合いによって根本的に制限される。
このレンズでは、タスク、長さ、フォーマットの3次元でCoT推論を識別します。
各次元を調査するために,LLMをスクラッチから訓練し,様々な分布条件下で系統的に探究する,孤立的かつ制御された環境であるDataAlchemyを設計する。
以上の結果から,CoT推論はトレーニング分布を超えると消滅する脆いミラージュであることが判明した。
この研究は、CoT推論が失敗した理由といつ失敗したのかを深く理解し、真で一般化可能な推論を達成するという継続的な課題を強調している。
関連論文リスト
- A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。
本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。
これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:51:30Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける「情報ゲイン」を定量化し、障害モードの識別を可能にする。
我々は,おもちゃの算術, GSM8K, PRM800kデータセットに関する広範な実験を通じて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。