論文の概要: Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision
- arxiv url: http://arxiv.org/abs/2509.14234v1
- Date: Wed, 17 Sep 2025 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.956923
- Title: Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision
- Title(参考訳): 教師としてのコンピュータ: 推論計算を参照不要のスーパービジョンに変える
- Authors: Dulhan Jayalath, Shashwat Goel, Thomas Foster, Parag Jain, Suchin Gururangan, Cheng Zhang, Anirudh Goyal, Alan Schelten,
- Abstract要約: 我々は、コンピュータ・アズ・教師(CaT)による調査を監督に転換することを提案する。
CaTは平行ロールアウトのグループから単一の参照を合成し、それに向けて最適化する。
テストタイムの手順として、CaTはGemma 3 4B、Qwen 3 4B、Llama 3.1 8Bを改善している。
- 参考スコア(独自算出の注目度): 26.922922043969958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Where do learning signals come from when there is no ground truth in post-training? We propose turning exploration into supervision through Compute as Teacher (CaT), which converts the model's own exploration at inference-time into reference-free supervision by synthesizing a single reference from a group of parallel rollouts and then optimizing toward it. Concretely, the current policy produces a group of rollouts; a frozen anchor (the initial policy) reconciles omissions and contradictions to estimate a reference, turning extra inference-time compute into a teacher signal. We turn this into rewards in two regimes: (i) verifiable tasks use programmatic equivalence on final answers; (ii) non-verifiable tasks use self-proposed rubrics-binary, auditable criteria scored by an independent LLM judge, with reward given by the fraction satisfied. Unlike selection methods (best-of-N, majority, perplexity, or judge scores), synthesis may disagree with the majority and be correct even when all rollouts are wrong; performance scales with the number of rollouts. As a test-time procedure, CaT improves Gemma 3 4B, Qwen 3 4B, and Llama 3.1 8B (up to +27% on MATH-500; +12% on HealthBench). With reinforcement learning (CaT-RL), we obtain further gains (up to +33% and +30%), with the trained policy surpassing the initial teacher signal.
- Abstract(参考訳): ポストトレーニングにおいて基礎的な真実が存在しない場合、学習シグナルはどこから来るのか?
我々は,並列ロールアウト群からの単一参照を合成し,それに向けて最適化することで,モデル自体の推論時の探索を参照不要の監視に変換するコンピュータ・アズ・教師(CaT)による監視に転換することを提案する。
具体的には、現在のポリシーはロールアウトのグループを生成し、凍結されたアンカー(初期ポリシー)は、参照を推定するために省略と矛盾を調整し、余分な推論時間計算を教師信号に変換する。
私たちはこれを2つの体制で報酬にします。
i) 検証可能なタスクは,最終回答のプログラム的等価性を使用する。
二 検証不能なタスクは、自己証明されたルーブリック・バイナリーを用いて、独立LLM審査員が評価する監査可能な基準を用いており、その報酬は、満たされた分数によって与えられる。
選択法(Best-of-N, majority, perplexity, judge scores)とは異なり、すべてのロールアウトが間違っていても、合成は多数派に反し、正しい。
テストタイムの手順として、CaTはGemma 3 4B、Qwen 3 4B、Llama 3.1 8B(MATH-500では+27%、HealthBenchでは+12%)を改善している。
強化学習(CaT-RL)では,初期教師信号を超える訓練方針で,さらに向上(+33%,+30%)が得られた。
関連論文リスト
- Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。