論文の概要: Learning Robust Reasoning through Guided Adversarial Self-Play
- arxiv url: http://arxiv.org/abs/2602.00173v1
- Date: Fri, 30 Jan 2026 02:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.027548
- Title: Learning Robust Reasoning through Guided Adversarial Self-Play
- Title(参考訳): ガイド付き対戦型セルフプレイによるロバスト推論の学習
- Authors: Shuozhe Li, Vaishnav Tadiparthi, Kwonjoon Lee, Nakul Agarwal, Hossein Nourkhiz Mahjoub, Ehsan Moradi Pari, Lizhang Chen, Amy Zhang, Liu Leqi,
- Abstract要約: 本稿では,GASP(Guided Adrial Self-Play)を導入した。
人間のラベルや外部教師がいなければ、GASPは単一のモデル内で敵のセルフプレイゲームを形成する。
自己生成修復の模倣用語であるin-distriion repair guidanceは、以前取得した機能を保持しながら回復確率を高める。
- 参考スコア(独自算出の注目度): 32.87933476043378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) produces strong reasoning models, yet they can fail catastrophically when the conditioning context is fallible (e.g., corrupted chain-of-thought, misleading partial solutions, or mild input perturbations), since standard RLVR optimizes final-answer correctness only under clean conditioning. We introduce GASP (Guided Adversarial Self-Play), a robustification method that explicitly trains detect-and-repair capabilities using only outcome verification. Without human labels or external teachers, GASP forms an adversarial self-play game within a single model: a polluter learns to induce failure via locally coherent corruptions, while an agent learns to diagnose and recover under the same corrupted conditioning. To address the scarcity of successful recoveries early in training, we propose in-distribution repair guidance, an imitation term on self-generated repairs that increases recovery probability while preserving previously acquired capabilities. Across four open-weight models (1.5B--8B), GASP transforms strong-but-brittle reasoners into robust ones that withstand misleading and perturbed context while often improving clean accuracy. Further analysis shows that adversarial corruptions induce an effective curriculum, and in-distribution guidance enables rapid recovery learning with minimal representational drift.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は強力な推論モデルを生成するが、標準的なRLVRは、清潔な条件下でのみ最終回答の正しさを最適化するため、条件付けのコンテキストが失敗する(例えば、破損した連鎖、誤解を招く部分解、あるいは弱い入力摂動)ときに破滅的に失敗する可能性がある。
GASP(Guided Adversarial Self-Play)は,結果検証のみを用いて検出・再生能力を明示的に訓練する,ロバスト化手法である。
汚染者は、局所的なコヒーレントな汚職によって失敗を誘発することを学び、エージェントは、同じ腐敗した条件下で診断し、回復することを学ぶ。
早期の訓練において回復が困難であったことを解決するため,以前に獲得した能力を維持しつつ,回復確率を高める自己再生修復の模擬用語であるin-distriion repair guidanceを提案する。
4つのオープンウェイトモデル(1.5B--8B)全体で、GASPは強いが脆い推論器を、誤解を招き難いコンテキストに耐えつつ、クリーンな精度をしばしば向上する堅牢なモデルに変換する。
さらに分析したところ、敵の汚職は効果的なカリキュラムを誘導し、分配指導は、表現のドリフトを最小限に抑えた迅速な回復学習を可能にすることが示された。
関連論文リスト
- Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning [0.3823356975862005]
本研究では,飽和問題から学習する簡易かつ効果的な手法であるフェールコンディショニングを提案する。
障害発生条件付けにより,中級難易度問題における訓練条件に適合する性能向上が期待できる。
以上の結果から, 故障条件付けは飽和問題に対するRLVRトレーニングの拡張に有効な経路であることが示唆された。
論文 参考訳(メタデータ) (2026-01-28T18:29:21Z) - Meta-Cognitive Reinforcement Learning with Self-Doubt and Recovery [25.522943543082363]
本稿では,エージェントが学習行動を評価し,制御し,回復することを可能にするメタ認知強化学習フレームワークを提案する。
提案手法では,値予測エラー安定性(VPES)によって駆動されるメタトラスト変数を導入し,フェールセーフな制御と段階的信頼回復を通じて学習ダイナミクスを変調する。
論文 参考訳(メタデータ) (2026-01-28T02:43:03Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning [16.093659272414527]
本稿では,不確実性推定に頼らずに回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を提案する。
LaMOuRは、エージェントを元のタスクを成功させる状態に誘導する高密度な報酬コードを生成する。
実験の結果,LaMOuRは様々な移動課題における回復効率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-21T13:20:39Z) - CARIL: Confidence-Aware Regression in Imitation Learning for Autonomous Driving [0.0]
エンドツーエンドの視覚に基づく模倣学習は、自動運転の有望な結果を証明している。
従来のアプローチでは、正確な制御を提供するレグレッションベースモデルと、信頼性スコアを提供するが、離散化による精度の低下に悩まされる分類ベースモデルのいずれかに依存している。
我々は、回帰と分類の両ヘッドを統合したデュアルヘッドニューラルネットワークアーキテクチャを導入し、模倣学習における決定信頼性を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:19:02Z) - Annealing Self-Distillation Rectification Improves Adversarial Training [0.10241134756773226]
我々は、ロバストモデルの特徴を分析し、ロバストモデルがよりスムーズでよく校正された出力を生成する傾向があることを特定する。
より優れた誘導機構としてソフトラベルを生成するアニーリング自己蒸留法を提案する。
我々は、広範囲な実験とデータセット間の強力なパフォーマンスを通して、ADRの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-20T06:35:43Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。