Fugu-MT 論文翻訳(概要): From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step

論文の概要: From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step

arxiv url: http://arxiv.org/abs/2405.14838v1
Date: Thu, 23 May 2024 17:54:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 13:27:25.706443
Title: From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step
Title（参考訳）: Explicit CoT から Implicit CoT: ステップごとに CoT を内部化するための学習
Authors: Yuntian Deng, Yejin Choi, Stuart Shieber,
Abstract要約: 本稿では,CoTステップを内在化するためのモデルについて検討する。本稿では,CoTのステップを内部化するためのシンプルで効果的な手法を提案する。提案手法はMistral 7Bのような大規模言語モデルに対して有効であり,中間ステップを生成せずにGSM8K上で50%以上の精度を達成できる。
参考スコア（独自算出の注目度）: 47.608403357284026
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When leveraging language models for reasoning tasks, generating explicit chain-of-thought (CoT) steps often proves essential for achieving high accuracy in final outputs. In this paper, we investigate if models can be taught to internalize these CoT steps. To this end, we propose a simple yet effective method for internalizing CoT steps: starting with a model trained for explicit CoT reasoning, we gradually remove the intermediate steps and finetune the model. This process allows the model to internalize the intermediate reasoning steps, thus simplifying the reasoning process while maintaining high performance. Our approach enables a GPT-2 Small model to solve 9-by-9 multiplication with up to 99% accuracy, whereas standard training cannot solve beyond 4-by-4 multiplication. Furthermore, our method proves effective on larger language models, such as Mistral 7B, achieving over 50% accuracy on GSM8K without producing any intermediate steps.
Abstract（参考訳）: 推論タスクに言語モデルを利用する場合、明示的なチェーン・オブ・シント(CoT)ステップを生成することは、最終的な出力で高い精度を達成するために不可欠であることがしばしば証明される。本稿では,これらのCoTステップを内部化するためのモデルについて検討する。そこで本研究では,CoT ステップを内在化するための簡易かつ効果的な手法を提案する。これは,CoT の論理的推論を訓練したモデルから始めて,中間ステップを徐々に除去し,モデルを微調整する。このプロセスにより、モデルは中間的推論ステップを内部化し、高い性能を維持しながら推論プロセスを簡素化することができる。提案手法により,GPT-2小モデルでは最大99%の精度で9-by-9乗算を解けるが,標準トレーニングでは4-by-4乗算以上は解けない。さらに,提案手法はMistral 7Bのような大規模言語モデルに対して有効であり,中間ステップを生成せずにGSM8K上で50%以上の精度を実現している。

関連論文リスト

StepFun-Prover Preview: Let's Think and Verify Step by Step [14.896796588073725]
本稿では,ツール統合推論による形式定理証明のための大規模言語モデルであるStepFun-Prover Previewを提案する。提案手法は,実時間環境フィードバックに基づく証明を反復的に精錬することにより,人間的な問題解決戦略をエミュレートすることを可能にする。 miniF2F-testベンチマークでは、StepFun-Proverがパス@1成功率70.0%$を達成した。
論文参考訳（メタデータ） (2025-07-27T09:38:32Z)
Dynamic Early Exit in Reasoning Models [13.982812528756504]
長いチェーン・オブ・シンクレット(CoT)生成における再考は、問題解決の効率を低下させるだけでなく、精度損失のリスクも引き起こす。我々は,LLMが生成時に早期終了によってCoT配列を自己トランケートできる簡易かつ効果的な方法を提案する。提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文参考訳（メタデータ） (2025-04-22T13:36:53Z)
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文参考訳（メタデータ） (2025-02-18T20:04:51Z)
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-01-18T15:38:03Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文参考訳（メタデータ） (2024-05-30T06:32:11Z)
How Do Humans Write Code? Large Models Do It the Same Way Too [14.954886191356342]
Program-of-Thought(PoT)は、自然言語ベースのChain-of-Thought(CoT)を、大規模言語モデルにおいて最も一般的な方法として置き換える。 PoTを使用すると、CoTと比較して、不正な公式や欠陥論理などの推論エラーがより多く導入される。本稿では,PoTとCoTの統合を支援する一連の戦略を活用するHTL(Human-Think Language)を提案する。
論文参考訳（メタデータ） (2024-02-24T05:40:01Z)
Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning Processes [55.2326738851157]
Enhancing NumeriCal reasOning with Reliable procEsses (Encore)を導入する。我々は、モデルが合成データを用いて推論プロセスの生成を学習するのに役立つ一連の事前学習タスクを提案する。実験の結果、Encoreは平均1.8%の5つの実験データセットに改善をもたらすことが示された。
論文参考訳（メタデータ） (2024-02-16T13:02:11Z)
Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。 CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-28T17:47:32Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)
Distilling Reasoning Capabilities into Smaller Language Models [83.66051257039763]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文参考訳（メタデータ） (2022-12-01T00:39:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。