論文の概要: Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning
- arxiv url: http://arxiv.org/abs/2407.01687v1
- Date: Mon, 1 Jul 2024 18:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:42:31.569815
- Title: Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning
- Title(参考訳): チェーン・オブ・ワットの有効性に影響する要因の解明:確率,記憶,雑音による推論
- Authors: Akshara Prabhakar, Thomas L. Griffiths, R. Thomas McCoy,
- Abstract要約: Chain-of-Thought(CoT)プロンプトは、Large Language Models(LLM)の多段階推論能力を高めることが示されている。
シフト暗号をデコードするシンボリック推論タスクのケーススタディとして、アルファベットのいくつかのステップで文字を前進させる。
GPT-4は標準のプロンプトでほとんどのシフト暗号の精度をゼロにするが、CoTでは平均32%に向上する。
- 参考スコア(独自算出の注目度): 11.758019716526459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting has been shown to enhance the multi-step reasoning capabilities of Large Language Models (LLMs). However, debates persist about whether LLMs exhibit abstract generalization or rely on shallow heuristics when given CoT prompts. To understand the factors influencing CoT reasoning we provide a detailed case study of the symbolic reasoning task of decoding shift ciphers, where letters are shifted forward some number of steps in the alphabet. GPT-4 achieves zero accuracy on most shift ciphers with standard prompting, but with CoT its accuracy improves to an average of 32%. By focusing on a single relatively simple task, we are able to identify three factors that systematically affect CoT performance: the probability of the task's expected output (probability), what the model has implicitly learned during pre-training (memorization), and the number of intermediate operations involved in reasoning (noisy reasoning). We show that these factors can drastically influence the task accuracy; e.g., varying the output's probability of occurrence can shift accuracy from 26% to 70%. We also demonstrate that it is essential for the model to explicitly produce intermediate steps as output that can be conditioned on to increase the probability of the correct answer. Our experiments indicate that as long as the model does so, the validity of the demonstrations in the prompt does not matter. Overall, we conclude that CoT prompting performance reflects both memorization and a probabilistic version of genuine reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは、LLM(Large Language Models)の多段階推論機能を強化することが示されている。
しかし、LLMが抽象的な一般化を示すのか、CoTのプロンプトが与えられたとき、浅いヒューリスティックに依存しているのかについては議論が続いている。
CoT推論に影響を及ぼす要因を理解するために、シフト暗号を復号するシンボリック推論タスクについて、アルファベットのいくつかのステップで文字を移動させる詳細なケーススタディを提供する。
GPT-4は標準のプロンプトでほとんどのシフト暗号の精度をゼロにするが、CoTでは平均32%に向上する。
1つの比較的単純なタスクにフォーカスすることで、タスクの期待出力の確率(確率)、事前トレーニング(記憶)中に暗黙的に学んだこと、推論(ノイズ推論)に関わる中間操作の数(ノイズ推論)の3つの要因を体系的に特定することができる。
これらの要因がタスクの精度に大きく影響することを示し、例えば、アウトプットの確率を26%から70%に変化させることができる。
また、モデルが正解の確率を高めるために条件付け可能な出力として中間ステップを明示的に生成することが不可欠であることを示す。
我々の実験は、モデルがそうである限り、プロンプトにおける実演の有効性は重要でないことを示している。
全体として、CoTのプロンプト性能は、真の推論の暗記と確率バージョンの両方を反映していると結論付けている。
関連論文リスト
- A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - A Unified Causal View of Instruction Tuning [76.1000380429553]
メタ構造因果モデル(meta-SCM)を開発し、異なるNLPタスクをデータの単一因果構造の下で統合する。
主なアイデアは、タスク要求因果関係を学習し、タスクの予測にのみそれらを使用することである。
論文 参考訳(メタデータ) (2024-02-09T07:12:56Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting [43.458726163197824]
大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
論文 参考訳(メタデータ) (2023-05-07T22:44:25Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。