論文の概要: Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning
- arxiv url: http://arxiv.org/abs/2407.01687v1
- Date: Mon, 1 Jul 2024 18:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:42:31.569815
- Title: Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning
- Title(参考訳): チェーン・オブ・ワットの有効性に影響する要因の解明:確率,記憶,雑音による推論
- Authors: Akshara Prabhakar, Thomas L. Griffiths, R. Thomas McCoy,
- Abstract要約: Chain-of-Thought(CoT)プロンプトは、Large Language Models(LLM)の多段階推論能力を高めることが示されている。
シフト暗号をデコードするシンボリック推論タスクのケーススタディとして、アルファベットのいくつかのステップで文字を前進させる。
GPT-4は標準のプロンプトでほとんどのシフト暗号の精度をゼロにするが、CoTでは平均32%に向上する。
- 参考スコア(独自算出の注目度): 11.758019716526459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting has been shown to enhance the multi-step reasoning capabilities of Large Language Models (LLMs). However, debates persist about whether LLMs exhibit abstract generalization or rely on shallow heuristics when given CoT prompts. To understand the factors influencing CoT reasoning we provide a detailed case study of the symbolic reasoning task of decoding shift ciphers, where letters are shifted forward some number of steps in the alphabet. GPT-4 achieves zero accuracy on most shift ciphers with standard prompting, but with CoT its accuracy improves to an average of 32%. By focusing on a single relatively simple task, we are able to identify three factors that systematically affect CoT performance: the probability of the task's expected output (probability), what the model has implicitly learned during pre-training (memorization), and the number of intermediate operations involved in reasoning (noisy reasoning). We show that these factors can drastically influence the task accuracy; e.g., varying the output's probability of occurrence can shift accuracy from 26% to 70%. We also demonstrate that it is essential for the model to explicitly produce intermediate steps as output that can be conditioned on to increase the probability of the correct answer. Our experiments indicate that as long as the model does so, the validity of the demonstrations in the prompt does not matter. Overall, we conclude that CoT prompting performance reflects both memorization and a probabilistic version of genuine reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは、LLM(Large Language Models)の多段階推論機能を強化することが示されている。
しかし、LLMが抽象的な一般化を示すのか、CoTのプロンプトが与えられたとき、浅いヒューリスティックに依存しているのかについては議論が続いている。
CoT推論に影響を及ぼす要因を理解するために、シフト暗号を復号するシンボリック推論タスクについて、アルファベットのいくつかのステップで文字を移動させる詳細なケーススタディを提供する。
GPT-4は標準のプロンプトでほとんどのシフト暗号の精度をゼロにするが、CoTでは平均32%に向上する。
1つの比較的単純なタスクにフォーカスすることで、タスクの期待出力の確率(確率)、事前トレーニング(記憶)中に暗黙的に学んだこと、推論(ノイズ推論)に関わる中間操作の数(ノイズ推論)の3つの要因を体系的に特定することができる。
これらの要因がタスクの精度に大きく影響することを示し、例えば、アウトプットの確率を26%から70%に変化させることができる。
また、モデルが正解の確率を高めるために条件付け可能な出力として中間ステップを明示的に生成することが不可欠であることを示す。
我々の実験は、モデルがそうである限り、プロンプトにおける実演の有効性は重要でないことを示している。
全体として、CoTのプロンプト性能は、真の推論の暗記と確率バージョンの両方を反映していると結論付けている。
関連論文リスト
- To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Can Separators Improve Chain-of-Thought Prompting? [10.398343318429367]
CoTプロンプトは大規模言語モデル(LLM)の推論能力を改善するためのシンプルで効果的な方法である
人間の認知にインスパイアされたCOT-SEP(COT-SEP)は,CoTプロンプトにおける各指数の最後にセパレータを戦略的に採用する手法である。
論文 参考訳(メタデータ) (2024-02-16T12:46:16Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z) - Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting [43.458726163197824]
大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
論文 参考訳(メタデータ) (2023-05-07T22:44:25Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。