Fugu-MT 論文翻訳(概要): Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

論文の概要: Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

arxiv url: http://arxiv.org/abs/2503.01307v1
Date: Mon, 03 Mar 2025 08:46:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.900064
Title: Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
Title（参考訳）: 自己改善型共振器, あるいは高能率STaRの4つの習慣を実現する認知行動
Authors: Kanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman,
Abstract要約: 強化学習は、検証可能なタスクにおける言語モデルにおける自己改善を促進することができる。また,Qwen-2.5-3BがLlama-3.2-3Bを超えることが確認された。我々の研究は、Qwenが自然にこれらの推論行動を示すのに対して、Llamaはこれらを欠いていることを明らかにしている。
参考スコア（独自算出の注目度）: 28.565225092457897
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test-time inference has emerged as a powerful paradigm for enabling language models to ``think'' longer and more carefully about complex challenges, much like skilled human experts. While reinforcement learning (RL) can drive self-improvement in language models on verifiable tasks, some models exhibit substantial gains while others quickly plateau. For instance, we find that Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game of Countdown. This discrepancy raises a critical question: what intrinsic properties enable effective self-improvement? We introduce a framework to investigate this question by analyzing four key cognitive behaviors -- verification, backtracking, subgoal setting, and backward chaining -- that both expert human problem solvers and successful language models employ. Our study reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama initially lacks them. In systematic experimentation with controlled behavioral datasets, we find that priming Llama with examples containing these reasoning behaviors enables substantial improvements during RL, matching or exceeding Qwen's performance. Importantly, the presence of reasoning behaviors, rather than correctness of answers, proves to be the critical factor -- models primed with incorrect solutions containing proper reasoning patterns achieve comparable performance to those trained on correct solutions. Finally, leveraging continued pretraining with OpenWebMath data, filtered to amplify reasoning behaviors, enables the Llama model to match Qwen's self-improvement trajectory. Our findings establish a fundamental relationship between initial reasoning behaviors and the capacity for improvement, explaining why some language models effectively utilize additional computation while others plateau.
Abstract（参考訳）: テストタイム推論は、熟練した人間の専門家のように、複雑な課題に対して、言語モデルがより長く、より慎重に"考え"できるようにするための強力なパラダイムとして現れています。強化学習(RL)は、検証可能なタスクの言語モデルにおける自己改善を促進するが、いくつかのモデルはかなりの利得を示し、他のモデルは急速に向上する。例えば、Qwen-2.5-3BがCountdownのゲームで同じRLトレーニングを受けた場合、Llama-3.2-3Bを超えていることが分かる。この相違は批判的な疑問を提起する: 固有の性質は効果的な自己改善を可能にするのか? 我々は、専門家の問題解決者と成功した言語モデルの両方が採用する4つの主要な認知行動(検証、バックトラック、サブゴール設定、下位連鎖)を分析して、この問題を調査するためのフレームワークを紹介します。我々の研究は、Qwenが自然にこれらの推論行動を示すのに対して、Llamaはこれらを欠いていることを明らかにしている。制御された行動データセットを用いた系統的な実験では、これらの推論動作を含む例でLlamaをプリミングすることは、Qwenの性能にマッチするか、あるいは超えることなく、RLにおいて大幅に改善できることがわかった。重要なことは、答えの正しさよりも推論行動の存在が重要な要因であることを証明している。最後に、推論の振る舞いを増幅するためにフィルタされたOpenWebMathデータによる継続的な事前トレーニングを活用することで、LlamaモデルはQwenの自己改善軌跡にマッチすることができる。本研究は,初期推論行動と改善能力の基本的な関係を定め,なぜ言語モデルが付加的な計算を効果的に活用するのかを説明するものである。

関連論文リスト

Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文参考訳（メタデータ） (2025-07-19T00:06:13Z)
Improving Rationality in the Reasoning Process of Language Models through Self-playing Game [25.193698725021108]
証明者が最初に与えられた問題に対する解を提供し、その後、その解に対する批判によって挑戦される、批判認識ゲーム(CDG)を設計する。証明者の目的は、誤解を招くコメントに直面しながら、建設的なフィードバックに対する誤りを修正しながら正しい回答を維持することである。数学的推論,ステップワイドな誤り検出,自己補正,長鎖推論を含む課題に関する実験により,CDGトレーニングは,その推論過程を理解するための整合性 LLM の能力を大幅に向上させることができることを示した。
論文参考訳（メタデータ） (2025-06-28T15:11:23Z)
The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文参考訳（メタデータ） (2025-05-30T14:23:32Z)
Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文参考訳（メタデータ） (2025-05-30T02:39:37Z)
Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-27T17:16:00Z)
Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文参考訳（メタデータ） (2025-05-19T23:29:23Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
Rethinking Reflection in Pre-Training [13.372316326688722]
言語モデルの独自の推論を反映する能力は、複雑な問題を解決する上で重要な利点となります。チェーンオブ思考に意図的にエラーを導入し、これらのミスを認識して修正することで、モデルが正しい回答に到達できるかどうかを検証します。事前学習の異なる段階におけるパフォーマンスを追跡することにより、この自己補正能力は早期に出現し、時間とともに着実に改善される。
論文参考訳（メタデータ） (2025-04-05T02:24:07Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文参考訳（メタデータ） (2025-02-21T00:48:32Z)
Causal-Inspired Multitask Learning for Video-Based Human Pose Estimation [18.826857684901118]
本稿では2段階からなる因果時間モデリングフレームワークを提案する。第1段階では、2つの自己超越補助タスクを導入することにより、因果時間モデリング能力を備えたモデルを提供する。第2段階では、すべての特徴トークンが、ポーズ推定に等しく寄与するわけではないと論じる。提案手法は3つの大規模ベンチマークデータセット上で最先端の手法より優れている。
論文参考訳（メタデータ） (2025-01-24T09:45:16Z)
Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back Paradigm [9.577716124021029]
GPT 3.5の2-backタスクと3-backタスクのパフォーマンス低下は、人間のように動作するメモリ容量の限界を反映している、と我々は主張する。これらのタスクにおける様々なパフォーマンスレベルのオープンソース言語モデルを解析することにより、タスク理解とタスクセットのメンテナンスの制限を反映していることを示す。
論文参考訳（メタデータ） (2024-12-24T03:06:52Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文参考訳（メタデータ） (2024-04-10T14:05:44Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Does Self-Rationalization Improve Robustness to Spurious Correlations? [19.553357015260687]
自己合理化のためのトレーニングモデルが、正しい理由でタスクを解決するための学習に役立つかどうかを問う。細調整エンコーダデコーダとデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデオーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダのロバスト性の評価を行った。自己組織化は低リソース環境での相関関係を刺激することでロバスト性を改善することができるが、高リソース環境ではロバスト性を損なう傾向にある。
論文参考訳（メタデータ） (2022-10-24T19:54:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。