論文の概要: Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting
- arxiv url: http://arxiv.org/abs/2506.07142v1
- Date: Sun, 08 Jun 2025 13:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.688908
- Title: Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting
- Title(参考訳): Prompting Science Report 2: Promptingにおける思考の連鎖の減少
- Authors: Lennart Meincke, Ethan Mollick, Lilach Mollick, Dan Shapiro,
- Abstract要約: Chain-of-Thought(CoT)プロンプトは,大規模言語モデルに“ステップバイステップ”を推奨するテクニックである。
CoTプロンプトの有効性はタスクの種類やモデルによって大きく異なる。
明確な推論能力を持つモデルの場合、CoTのプロンプトは答えの正確性に限界があるだけである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This is the second in a series of short reports that seek to help business, education, and policy leaders understand the technical details of working with AI through rigorous testing. In this report, we investigate Chain-of-Thought (CoT) prompting, a technique that encourages a large language model (LLM) to "think step by step" (Wei et al., 2022). CoT is a widely adopted method for improving reasoning tasks, however, our findings reveal a more nuanced picture of its effectiveness. We demonstrate two things: - The effectiveness of Chain-of-Thought prompting can vary greatly depending on the type of task and model. For non-reasoning models, CoT generally improves average performance by a small amount, particularly if the model does not inherently engage in step-by-step processing by default. However, CoT can introduce more variability in answers, sometimes triggering occasional errors in questions the model would otherwise get right. We also found that many recent models perform some form of CoT reasoning even if not asked; for these models, a request to perform CoT had little impact. Performing CoT generally requires far more tokens (increasing cost and time) than direct answers. - For models designed with explicit reasoning capabilities, CoT prompting often results in only marginal, if any, gains in answer accuracy. However, it significantly increases the time and tokens needed to generate a response.
- Abstract(参考訳): これは、ビジネス、教育、政策リーダーが厳格なテストを通じてAIを扱う技術的詳細を理解するのを助けるための一連の短いレポートの第2弾である。
本稿では,大規模言語モデル(LLM)の「ステップバイステップ」を促す手法であるChain-of-Thought(CoT)のプロンプトについて検討する(Wei et al , 2022)。
CoTは推論タスクを改善する手法として広く採用されているが,本研究で得られた結果は,その効果のより微妙な画像を示している。
チェーン・オブ・ソート(Chain-of-Thought)のプロンプトの有効性は,タスクの種類やモデルによって大きく異なります。
非推論モデルでは、特にモデルがデフォルトでステップバイステップ処理を行なわない場合、CoTは平均性能を少量改善する。
しかし、CoTは回答により多くのばらつきを導入し、時にはモデルが正しくなるような質問で時折エラーを引き起こすことがある。
また,近年のモデルでは,要求されていなくてもある種のCoT推論を行う場合が多く,これらのモデルでは,CoTの実行要求にはほとんど影響がなかった。
CoTを実行するには、直接の回答よりもはるかに多くのトークン(コストと時間の増大)が必要である。
-明示的な推論能力を備えたモデルの場合、CoTプロンプトは答えの正確性に限界があるだけであることが多い。
しかし、応答を生成するのに必要な時間とトークンが大幅に増加する。
関連論文リスト
- Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Distilling Reasoning Capabilities into Smaller Language Models [83.66051257039763]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。
しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T00:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。