論文の概要: Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2604.17912v1
- Date: Mon, 20 Apr 2026 07:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.751517
- Title: Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought
- Title(参考訳): 正しい学習:多目的連鎖のための校正強化学習
- Authors: Muhammed Emrullah Ildiz, Halil Alperen Gozeten, Ege Onur Taga, Samet Oymak,
- Abstract要約: 最先端の推論モデルは、ますます複雑な問題を解決するために長いチェーン・オブ・シント(CoT)を利用する。
そこで本研究では,モデルがKまで連続的に解決しようとする,長いCoT設定について検討する。
これは、個別の試行を慎重に重み付けすることで、目的ごとの報酬を活用できるRL手法を動機付けている。
- 参考スコア(独自算出の注目度): 28.724102960968594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art reasoning models utilize long chain-of-thought (CoT) to solve increasingly complex problems using more test-time computation. In this work, we explore a long CoT setting where the model makes up to K successive attempts at solving a problem, in which each attempt is allowed to build on earlier ones after the model receives a hard verifier feedback. This motivates RL methods that can harness per-attempt rewards by carefully weighting individual attempts. We study optimizing the Verification@K reward (the model succeeds by the K-th attempt) and show that naively weighing the attempts by their pass/fail results in biased gradients. We introduce Calibrated Attempt-Level (CAL) GRPO by devising a weighing strategy to obtain unbiased gradients while maintaining small variance. Our theory reveals how incorporating per-attempt rewards influence the training and the eventual Verification@K performance. Experiments, baselines, and ablations on synthetic and real data corroborate our theory and the benefits of CAL-GRPO over vanilla GRPO as well as naive weighting.
- Abstract(参考訳): 最先端の推論モデルでは、長いチェーン・オブ・シント(CoT)を使用して、より多くのテスト時間計算を用いて、ますます複雑な問題を解決する。
本研究では、モデルがKまで連続的に解決しようとするような長いCoT設定について検討し、モデルがハード検証器のフィードバックを受けた後、各試みが早期に構築されることを許可する。
これは、個別の試行を慎重に重み付けすることで、目的ごとの報酬を活用できるRL手法を動機付けている。
検証@K報酬の最適化(K-thの試みによってモデルが成功する)について検討し、通過/失敗による試行を経時的に評価するとバイアス勾配が生じることを示した。
低分散を維持しながら、偏りのない勾配を得るための重み付け戦略を考案し、Cal(Calibrated Attempt-Level)GRPOを導入する。
我々の理論は, 対人報酬の導入がトレーニングと結果の検証@Kパフォーマンスにどのように影響するかを明らかにする。
合成および実データに対する実験、ベースライン、および改善は、我々の理論とバニラGRPOに対するCAL-GRPOの利点と、ナイーブ重み付けを相関させる。
関連論文リスト
- HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - What Can You Do When You Have Zero Rewards During RL? [3.0795668932789515]
結果に基づく報酬を伴う強化学習(RL)は、複雑な推論タスクにおいて大きな言語モデル(LLM)を改善するのに有効であることが証明されている。
本稿では,Bachmann et al. (2024) で導入されたグラフ検索タスクを通じて,このシナリオを検証し,望ましいコンポーネントを組み込んだ最近の手法を評価する。
トレーニングセットに簡単なサンプルを追加するという単純なデータ中心の介入によって、報酬のゼロから始まるにもかかわらず、モデルが最終的に元のハードタスクを解決できることが分かりました。
論文 参考訳(メタデータ) (2025-10-04T23:10:38Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - LoRanPAC: Low-rank Random Features and Pre-trained Models for Bridging Theory and Practice in Continual Learning [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。