論文の概要: Rethinking Reflection in Pre-Training
- arxiv url: http://arxiv.org/abs/2504.04022v1
- Date: Sat, 05 Apr 2025 02:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:07.963663
- Title: Rethinking Reflection in Pre-Training
- Title(参考訳): プレトライニングにおけるリフレクションの再考
- Authors: Essential AI, :, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski,
- Abstract要約: 言語モデルの独自の推論を反映する能力は、複雑な問題を解決する上で重要な利点となります。
チェーンオブ思考に意図的にエラーを導入し、これらのミスを認識して修正することで、モデルが正しい回答に到達できるかどうかを検証します。
事前学習の異なる段階におけるパフォーマンスを追跡することにより、この自己補正能力は早期に出現し、時間とともに着実に改善される。
- 参考スコア(独自算出の注目度): 13.372316326688722
- License:
- Abstract: A language model's ability to reflect on its own reasoning provides a key advantage for solving complex problems. While most recent research has focused on how this ability develops during reinforcement learning, we show that it actually begins to emerge much earlier - during the model's pre-training. To study this, we introduce deliberate errors into chains-of-thought and test whether the model can still arrive at the correct answer by recognizing and correcting these mistakes. By tracking performance across different stages of pre-training, we observe that this self-correcting ability appears early and improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4 trillion tokens displays self-correction on our six self-reflection tasks.
- Abstract(参考訳): 言語モデルの独自の推論を反映する能力は、複雑な問題を解決する上で重要な利点となります。
最近の研究は、強化学習の間にこの能力がどのように発達するかに焦点を当てているが、モデルの事前学習中に実際にかなり早く現れ始めることを示している。
そこで本研究では,意図的な誤りをチェーンオブ思考に導入し,これらの誤りを認識し,修正することで,モデルがまだ正しい回答に到達できるかどうかを検証する。
事前学習の異なる段階におけるパフォーマンスを追跡することにより、この自己補正能力は早期に出現し、時間とともに着実に改善される。
例えば、4兆のトークンで事前訓練されたOLMo2-7Bモデルは、6つの自己修正タスクに自己補正を表示します。
関連論文リスト
- ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks [43.96835245022083]
モデルにアウトプットを洗練させる自己補正は、この問題に対する有望な解決策である。
本研究では,視覚言語モデルの推論および微調整段階における自己補正能力について検討した。
論文 参考訳(メタデータ) (2024-10-05T06:28:54Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - A study on the plasticity of neural networks [21.43675319928863]
連続学習における可塑性の喪失の意味について論じる。
そこで本研究では,データ分布と微調整したデータから事前学習したモデルが,新たな初期化モデルと同じ一般化に到達しないことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。