論文の概要: Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
- arxiv url: http://arxiv.org/abs/2503.01307v1
- Date: Mon, 03 Mar 2025 08:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:37.900064
- Title: Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
- Title(参考訳): 自己改善型共振器, あるいは高能率STaRの4つの習慣を実現する認知行動
- Authors: Kanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman,
- Abstract要約: 強化学習は、検証可能なタスクにおける言語モデルにおける自己改善を促進することができる。
また,Qwen-2.5-3BがLlama-3.2-3Bを超えることが確認された。
我々の研究は、Qwenが自然にこれらの推論行動を示すのに対して、Llamaはこれらを欠いていることを明らかにしている。
- 参考スコア(独自算出の注目度): 28.565225092457897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time inference has emerged as a powerful paradigm for enabling language models to ``think'' longer and more carefully about complex challenges, much like skilled human experts. While reinforcement learning (RL) can drive self-improvement in language models on verifiable tasks, some models exhibit substantial gains while others quickly plateau. For instance, we find that Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game of Countdown. This discrepancy raises a critical question: what intrinsic properties enable effective self-improvement? We introduce a framework to investigate this question by analyzing four key cognitive behaviors -- verification, backtracking, subgoal setting, and backward chaining -- that both expert human problem solvers and successful language models employ. Our study reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama initially lacks them. In systematic experimentation with controlled behavioral datasets, we find that priming Llama with examples containing these reasoning behaviors enables substantial improvements during RL, matching or exceeding Qwen's performance. Importantly, the presence of reasoning behaviors, rather than correctness of answers, proves to be the critical factor -- models primed with incorrect solutions containing proper reasoning patterns achieve comparable performance to those trained on correct solutions. Finally, leveraging continued pretraining with OpenWebMath data, filtered to amplify reasoning behaviors, enables the Llama model to match Qwen's self-improvement trajectory. Our findings establish a fundamental relationship between initial reasoning behaviors and the capacity for improvement, explaining why some language models effectively utilize additional computation while others plateau.
- Abstract(参考訳): テストタイム推論は、熟練した人間の専門家のように、複雑な課題に対して、言語モデルがより長く、より慎重に"考え"できるようにするための強力なパラダイムとして現れています。
強化学習(RL)は、検証可能なタスクの言語モデルにおける自己改善を促進するが、いくつかのモデルはかなりの利得を示し、他のモデルは急速に向上する。
例えば、Qwen-2.5-3BがCountdownのゲームで同じRLトレーニングを受けた場合、Llama-3.2-3Bを超えていることが分かる。
この相違は批判的な疑問を提起する: 固有の性質は効果的な自己改善を可能にするのか?
我々は、専門家の問題解決者と成功した言語モデルの両方が採用する4つの主要な認知行動(検証、バックトラック、サブゴール設定、下位連鎖)を分析して、この問題を調査するためのフレームワークを紹介します。
我々の研究は、Qwenが自然にこれらの推論行動を示すのに対して、Llamaはこれらを欠いていることを明らかにしている。
制御された行動データセットを用いた系統的な実験では、これらの推論動作を含む例でLlamaをプリミングすることは、Qwenの性能にマッチするか、あるいは超えることなく、RLにおいて大幅に改善できることがわかった。
重要なことは、答えの正しさよりも推論行動の存在が重要な要因であることを証明している。
最後に、推論の振る舞いを増幅するためにフィルタされたOpenWebMathデータによる継続的な事前トレーニングを活用することで、LlamaモデルはQwenの自己改善軌跡にマッチすることができる。
本研究は,初期推論行動と改善能力の基本的な関係を定め,なぜ言語モデルが付加的な計算を効果的に活用するのかを説明するものである。
関連論文リスト
- SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Rethinking Reflection in Pre-Training [13.372316326688722]
言語モデルの独自の推論を反映する能力は、複雑な問題を解決する上で重要な利点となります。
チェーンオブ思考に意図的にエラーを導入し、これらのミスを認識して修正することで、モデルが正しい回答に到達できるかどうかを検証します。
事前学習の異なる段階におけるパフォーマンスを追跡することにより、この自己補正能力は早期に出現し、時間とともに着実に改善される。
論文 参考訳(メタデータ) (2025-04-05T02:24:07Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Causal-Inspired Multitask Learning for Video-Based Human Pose Estimation [18.826857684901118]
本稿では2段階からなる因果時間モデリングフレームワークを提案する。
第1段階では、2つの自己超越補助タスクを導入することにより、因果時間モデリング能力を備えたモデルを提供する。
第2段階では、すべての特徴トークンが、ポーズ推定に等しく寄与するわけではないと論じる。
提案手法は3つの大規模ベンチマークデータセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-01-24T09:45:16Z) - Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back Paradigm [9.577716124021029]
GPT 3.5の2-backタスクと3-backタスクのパフォーマンス低下は、人間のように動作するメモリ容量の限界を反映している、と我々は主張する。
これらのタスクにおける様々なパフォーマンスレベルのオープンソース言語モデルを解析することにより、タスク理解とタスクセットのメンテナンスの制限を反映していることを示す。
論文 参考訳(メタデータ) (2024-12-24T03:06:52Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Does Self-Rationalization Improve Robustness to Spurious Correlations? [19.553357015260687]
自己合理化のためのトレーニングモデルが、正しい理由でタスクを解決するための学習に役立つかどうかを問う。
細調整エンコーダデコーダとデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデオーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダのロバスト性の評価を行った。
自己組織化は低リソース環境での相関関係を刺激することでロバスト性を改善することができるが、高リソース環境ではロバスト性を損なう傾向にある。
論文 参考訳(メタデータ) (2022-10-24T19:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。