論文の概要: Tool Verification for Test-Time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.02203v1
- Date: Mon, 02 Mar 2026 18:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.047516
- Title: Tool Verification for Test-Time Reinforcement Learning
- Title(参考訳): テスト時間強化学習のためのツール検証
- Authors: Ruotong Liao, Nikolai Röhrich, Xiaohan Wang, Yuhui Zhang, Yasaman Samadzadeh, Volker Tresp, Serena Yeung-Levy,
- Abstract要約: テスト時強化学習(TTRL)は、大規模推論モデルの自己進化のための有望なパラダイムとして登場した。
本稿では,T3RL(Tool-Verification for Test-Time Reinforcement Learning)を提案する。
- 参考スコア(独自算出の注目度): 70.09740926883818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.
- Abstract(参考訳): テスト時間強化学習(TTRL)は、自己進化型大規模推論モデル(LRM)のための有望なパラダイムとして登場し、多数決による自己誘導型報酬による未ラベルテストインプットへのオンライン適応を可能にしている。
しかし、急激な高頻度の未検証のコンセンサスは偏りと強化された報酬信号となり、誤ったモード崩壊を引き起こす。
本稿では,T^3RL(Tool-Verification for Test-Time Reinforcement Learning)を用いて,テスト時間ツール検証を報酬推定に導入する。
具体的には、検証者は外部ツールをエビデンス(例えば、コード実行から)として、検証を意識した投票におけるアップウェイトな検証済みのロールアウトに使用し、トレーニングのためにより信頼性の高い擬似ラベルを生成する。
様々な数学難易度(MATH-500, AMC, AIME 2024)と様々なバックボーンタイプにおいて, T^3RLはTTRLよりも有意に向上し, 難易度が高い。
さらに広く、T^3RLは検証されたオンラインデータ合成と見なすことができ、テスト時のツール検証を自己進化を安定化するための重要なメカニズムとして強調する。
関連論文リスト
- MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。
我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。
HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2026-03-02T03:22:44Z) - Test-time Recursive Thinking: Self-Improvement without External Feedback [120.80790108733942]
TRT(Test-time Recursive Thinking)は、反復的な自己改善フレームワークである。
オープンソースモデルはAIME-25/24で100%精度に達し、LiveCodeBenchの最も難しい問題では、クローズドソースモデルは外部からのフィードバックなしで10.4-14.8ポイント改善されている。
論文 参考訳(メタデータ) (2026-02-03T04:37:37Z) - Proof-RM: A Scalable and Generalizable Reward Model for Math Proof [67.53066972145183]
大規模言語モデル(LLM)は,*検証リワード*(RLVR)を用いた強化学習を通じて,強力な数学推論能力を示した。
多くの先進的な数学的問題は証明ベースであり、単純な解マッチングによって証明の真性を決定するための保証された方法はない。
自動検証を実現するには、完全な証明プロセスを確実に評価できるリワードモデル(RM)が必要である。
論文 参考訳(メタデータ) (2026-02-02T17:42:53Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Aletheia: What Makes RLVR For Code Verifiers Tick? [51.371034079170435]
Reinforcement Learning from Verifiable Rewards (RLVR)を通じてトレーニングされた検証は、Large Language Model (LLM)ポストトレーニングパイプラインの顕著なフィクスチャである。
コード検証は、実行フィードバックを得るのが難しいシナリオにおいて、モデル出力を判断する上で価値があります。
本稿では,RLVRを用いた検証学習手法の構成要素を検証し,その有効性を検証した。
論文 参考訳(メタデータ) (2026-01-17T22:30:45Z) - SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - MathLedger: A Verifiable Learning Substrate with Ledger-Attested Feedback [0.0]
現代のAIシステムは異常なパフォーマンスを達成するが、不透明で検証不可能なままである。
我々は,形式的検証,暗号証明,学習ダイナミクスを統合した,検証可能なマシン認知のための基板であるMathLedgerを紹介する。
この貢献は非構造的であり、大規模な監査性を実現する台帳による学習の実践的なプロトタイプである。
論文 参考訳(メタデータ) (2025-12-22T19:27:55Z) - ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。
推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。
これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。
学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。
低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文 参考訳(メタデータ) (2025-05-26T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。