論文の概要: Hide to Guide: Learning via Semantic Masking
- arxiv url: http://arxiv.org/abs/2605.25198v1
- Date: Sun, 24 May 2026 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.962952
- Title: Hide to Guide: Learning via Semantic Masking
- Title(参考訳): Hide to Guide: セマンティックマスキングによる学習
- Authors: Ruitao Liu, Qinghao Hu, Alex Hu, Yecheng Wu, Shang Yang, Luke J. Huang, Zhuoyang Zhang, Han Cai, Song Han,
- Abstract要約: 本稿では,エキスパート誘導RLVRのためのセマンティックマスキング戦略を提案する。
SMEPOは、トレースを粗く切り刻む代わりに、重要な経路に沿って報酬関連セマンティックスをマスクする。
GRPよりも最大3.2ポイントの精度向上を実現し、トレーニング時間を最大4.2倍に短縮する。
- 参考スコア(独自算出の注目度): 28.55894056629788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a powerful paradigm for improving language models on reasoning-intensive tasks, but its effectiveness is often limited by exploration. For example, models often fail on hard problems, leaving little useful reward signal. External expert traces offer a natural source of guidance, yet they may also expose reward-relevant content along the critical path to the verifier target, such as final answers, intermediate values, executable implementations, or answer-related entities. This content can create an unintended reward hacking channel, allowing the policy to obtain reward by copying the trace rather than learning the underlying reasoning or agentic behavior. Existing guided-RL methods reduce this risk by using partial trajectories, but they mainly control how much expert information is shown heuristically rather than which parts should be hidden. To this end, we propose Semantic Masked Expert Policy Optimization (SMEPO), a fine-grained semantic masking strategy for expert-guided RLVR. Instead of truncating traces coarsely or revealing them unchanged, SMEPO masks reward-relevant semantic spans along the critical path while preserving the expert's decomposition, plan, and procedural structure. This turns hard problems from reasoning from scratch into a fill-in-the-blank process: the policy can follow the expert's problem-solving route, but must still reconstruct the missing values, code, or entities by itself. SMEPO is simple to apply and requires no changes to the reward function or RL objective. Across diverse domains, including math, code, and agentic search, SMEPO improves accuracy by up to 3.2 points over GRPO and reduces training time by up to 4.2x. The code is available at https://github.com/mit-han-lab/SMEPO.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、推論集約的なタスクにおいて言語モデルを改善するための強力なパラダイムとなっているが、その有効性は探索によって制限されることが多い。
例えば、モデルは難しい問題で失敗することが多く、有用な報酬信号はほとんど残っていない。
外部の専門家のトレースは、自然なガイダンスを提供するが、最終回答、中間値、実行可能実装、回答関連エンティティなど、検証対象のクリティカルパスに沿って報酬関連コンテンツを公開することもできる。
このコンテンツは意図しない報酬のハッキングチャネルを作成することができ、基本となる推論やエージェントの振る舞いを学ぶのではなく、トレースをコピーすることで報酬を得ることができる。
既存のガイド付きRL法では、部分的な軌跡を用いることでこのリスクを低減しているが、どの部分を隠すべきかというよりも、経験的情報がどのようにヒューリスティックに表示されるかを主に制御している。
この目的のために,専門家誘導型RLVRのためのセマンティックマスケッドエキスパートポリシー最適化(SMEPO)を提案する。
SMEPOのマスクは、トレースを粗く切り離す代わりに、専門家の分解、計画、手続き構造を保ちながら、重要な経路に沿って報酬関連セマンティックスを分散させる。
ポリシーは専門家の問題解決ルートに従うことができるが、いまだに欠落した値、コード、エンティティをそれ自体で再構築する必要がある。
SMEPOは簡単に適用でき、報酬関数やRLの目的を変更する必要はない。
数学、コード、エージェント検索を含む様々な分野において、SMEPOはGRPO上で最大3.2ポイントの精度を向上し、トレーニング時間を最大4.2倍に短縮する。
コードはhttps://github.com/mit-han-lab/SMEPOで公開されている。
関連論文リスト
- AIPO: Learning to Reason from Active Interaction [54.10819421625103]
AIPOは、ポリシーモデルが、推論ボトルネックに遭遇するときに、3つの機能的協調エージェントを積極的に相談することを可能にする。
AIPOは推論性能を継続的に改善し、異なるポリシーモデルとRLVRアルゴリズムをまたいで堅牢に一般化し、ポリシーモデルの推論能力境界を効果的に拡張する。
論文 参考訳(メタデータ) (2026-05-08T19:06:55Z) - When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals [11.280037154530847]
LLMの強化学習はハッキングに対して脆弱である。
本研究では,環境操作設定を用いたコーディング作業におけるこの現象について検討する。
本稿では,ショートカットのコンセプトスコアをGRPOの利点計算に統合したアドバンテージ修正を提案する。
論文 参考訳(メタデータ) (2026-04-01T23:33:08Z) - Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards [18.92867715736209]
本稿では,検索エージェントを訓練するための自己修正フレームワークであるReSeekを提案する。
本フレームワークでは,誤探索経路からエージェントを動的に識別・復元する自己補正機構を導入している。
既存のデータセットにおけるデータ汚染のリスクを軽減するため、FictionalHotを導入する。
論文 参考訳(メタデータ) (2025-10-01T06:44:28Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction [5.518813485456855]
外部推論システムは、言語モデルとプロセス報酬モデル(PRM)を組み合わせて、複雑なタスクのための高品質な推論パスを選択する。
これらのシステムはハッキングに報いる傾向があり、高いスコアが与えられるが、論理的に正しくないパスは、PRMによって高いスコアが割り当てられ、誤った答えが導かれる。
推論経路の真の報酬を推定することにより、報酬ハッキングを緩和する手法であるCausal Reward Adjustment (CRA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T08:48:55Z) - Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。
DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文 参考訳(メタデータ) (2025-06-09T07:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。