論文の概要: The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning
- arxiv url: http://arxiv.org/abs/2504.05081v1
- Date: Mon, 07 Apr 2025 13:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:31.750128
- Title: The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning
- Title(参考訳): CoTのカース--文脈内学習におけるチェーン・オブ・サードの限界について
- Authors: Tianshi Zheng, Yixiang Chen, Chengxi Li, Chunyang Li, Qing Zong, Haochen Shi, Baixuan Xu, Yangqiu Song, Ginny Y. Wong, Simon See,
- Abstract要約: CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。
CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。
パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
- 参考スコア(独自算出の注目度): 39.613595533503144
- License:
- Abstract: Chain-of-Thought (CoT) prompting has been widely recognized for its ability to enhance reasoning capabilities in large language models (LLMs) through the generation of explicit explanatory rationales. However, our study reveals a surprising contradiction to this prevailing perspective. Through extensive experiments involving 16 state-of-the-art LLMs and nine diverse pattern-based in-context learning (ICL) datasets, we demonstrate that CoT and its reasoning variants consistently underperform direct answering across varying model scales and benchmark complexities. To systematically investigate this unexpected phenomenon, we designed extensive experiments to validate several hypothetical explanations. Our analysis uncovers a fundamental explicit-implicit duality driving CoT's performance in pattern-based ICL: while explicit reasoning falters due to LLMs' struggles to infer underlying patterns from demonstrations, implicit reasoning-disrupted by the increased contextual distance of CoT rationales-often compensates, delivering correct answers despite flawed rationales. This duality explains CoT's relative underperformance, as noise from weak explicit inference undermines the process, even as implicit mechanisms partially salvage outcomes. Notably, even long-CoT reasoning models, which excel in abstract and symbolic reasoning, fail to fully overcome these limitations despite higher computational costs. Our findings challenge existing assumptions regarding the universal efficacy of CoT, yielding novel insights into its limitations and guiding future research toward more nuanced and effective reasoning methodologies for LLMs.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは、大きな言語モデル(LLM)における推論能力を高める能力として、明示的な説明論的論理の生成によって広く認識されている。
しかし,本研究は,この見解に驚くべき矛盾を呈している。
16の最先端LLMと9つのパターンベースのインコンテキスト学習(ICL)データセットを含む広範な実験を通して、CoTとその推論変異が、様々なモデルスケールとベンチマークの複雑さで直接応答を一貫して下回っていることを実証した。
この予期せぬ現象を体系的に研究するため,いくつかの仮説的説明を検証するための広範囲な実験を設計した。
我々の分析は、パターンベースICLにおけるCoTの性能を駆動する基本的明示的な双対性を明らかにする。一方、LLMが実証から根底にあるパターンを推測する上で苦戦している一方、CoTの有理量に対する文脈的距離の増大により暗黙的な推論は崩壊し、欠点のある有理性にもかかわらず正しい答えを提供する。
この双対性はCoTの相対的な低性能を説明しており、弱い明示的推論からのノイズは、暗黙的なメカニズムが部分的に救われるとしても、その過程を損なう。
特に、抽象的および象徴的な推論に優れる長いCoT推論モデルでさえ、計算コストが高いにもかかわらず、これらの制限を完全に克服することができない。
本研究は、COTの普遍的有効性に関する既存の仮定に挑戦し、その限界に対する新たな洞察を与え、LCMのより曖昧で効果的な推論手法に向けた今後の研究を導くものである。
関連論文リスト
- Investigating the Robustness of Deductive Reasoning with Large Language Models [7.494617747914778]
大規模言語モデル(LLM)は多くの推論に基づく自然言語処理(NLP)タスクにおいて印象的な結果が得られることが示されている。
LLMが、非公式および自己形式化の両方の手法で、どの程度論理的推論タスクに頑健であるかは、まだ不明である。
論文 参考訳(メタデータ) (2025-02-04T17:16:51Z) - Rethinking Thinking Tokens: Understanding Why They Underperform in Practice [6.102559098873098]
思考トークン (TT) は言語モデルにおける推論を容易にする教師なしの手法として提案されている。
TTsは,Chain-of-Thought (CoT) の推論と比較して,性能を極端に改善し,一貫して性能を低下させることを示す。
論文 参考訳(メタデータ) (2024-11-18T08:34:38Z) - Concept-Reversed Winograd Schema Challenge: Evaluating and Improving Robust Reasoning in Large Language Models via Abstraction [48.20754793102953]
我々は,表層論理的連鎖に頼るのではなく,Large Language Models (LLM) が頑健な推論を行う範囲を評価する。
我々は、有名なウィノグラードチャレンジ(WSC)データセットに基づいて、新しい評価データセットである概念逆ウィノグラードチャレンジ(CR-WSC)を提案する。
論文 参考訳(メタデータ) (2024-10-15T20:19:27Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences [5.141416267381492]
我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。
思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。
以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-17T08:59:04Z) - On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models [25.029579061612456]
大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。
これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
論文 参考訳(メタデータ) (2024-06-15T13:16:44Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。