論文の概要: VAM: Verbalized Action Masking for Controllable Exploration in RL Post-Training -- A Chess Case Study
- arxiv url: http://arxiv.org/abs/2602.16833v1
- Date: Wed, 18 Feb 2026 19:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.321176
- Title: VAM: Verbalized Action Masking for Controllable Exploration in RL Post-Training -- A Chess Case Study
- Title(参考訳): VAM(Verbalized Action Masking for Controllable Exploration in RL Post-Training)のケーススタディ
- Authors: Zhicheng Zhang, Ziyan Wang, Yali Du, Fei Fang,
- Abstract要約: 本稿では,アクションマスクをプロンプトで動詞化し,モデルがマスクセットからアクションを出力することを強制するVerbalized Action Masking (VAM)を提案する。
我々は,VAMをチェスで学習し,エンジンの対戦相手と対戦して状態を生成するエンジンプレイシステムと,定位置データセットから検証器スコアでトレーニングする固定データセットシステムという,2つのトレーニング体制の下で評価する。
- 参考スコア(独自算出の注目度): 44.343609587962874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration remains a key bottleneck for reinforcement learning (RL) post-training of large language models (LLMs), where sparse feedback and large action spaces can lead to premature collapse into repetitive behaviors. We propose Verbalized Action Masking (VAM), which verbalizes an action mask in the prompt and enforces that the model outputs an action from the masked set. Building on this interface, we introduce iterative action-space pruning: if the target action is not sampled, we remove valid sampled actions from the mask and resample under the reduced candidate set, repeating until the target is sampled or a fixed budget is exhausted. We study VAM in chess and evaluate it under two training regimes: an engine-play regime that generates states via play against an engine opponent and a fixed-dataset regime that trains from a fixed dataset of positions with verifier scores. Across held-out chess puzzles and full-game play measured by average centipawn loss (ACPL), VAM improves learning efficiency and final performance over strong baselines, highlighting verbalized masking as a practical mechanism for controllable exploration in LLM RL post-training.
- Abstract(参考訳): 大規模な言語モデル(LLM)の強化学習(RL)後のトレーニングにおいて,探索は依然として重要なボトルネックとなっている。
本稿では,アクションマスクをプロンプトで動詞化し,モデルがマスクセットからアクションを出力することを強制するVerbalized Action Masking (VAM)を提案する。
本インタフェースでは, 対象アクションがサンプリングされない場合, マスクから有効なサンプルアクションを除去し, 縮小された候補セットの下で再サンプリングし, ターゲットがサンプリングされるか, 固定予算が枯渇するまで繰り返す。
我々は,VAMをチェスで学習し,エンジンの対戦相手と対戦して状態を生成するエンジンプレイシステムと,定位置データセットから検証器スコアでトレーニングする固定データセットシステムという,2つのトレーニング体制の下で評価する。
ホールドアウトチェスパズルとACPL(英語版)によるフルゲームプレイで、VAMは学習効率と強力なベースライン上での最終的なパフォーマンスを改善し、LLM RLポストトレーニングにおける制御可能な探索の実践的なメカニズムとして言語マスキングを強調した。
関連論文リスト
- Boosting Reasoning in Large Multimodal Models via Activation Replay [136.6522463570943]
RLVRは低エントロピーの活性化を予期せずシフトさせるが、高エントロピーの活性化は影響を受けないことを示す。
本稿では,学習後LMMのマルチモーダル推論を促進するトレーニングフリーアプローチであるActivation Replayを提案する。
論文 参考訳(メタデータ) (2025-11-25T06:31:57Z) - Action-Constrained Imitation Learning [12.316546911223263]
行動制約下での政策学習は、様々なロボット制御や資源配分アプリケーションにおいて、安全な行動を保証する上で中心的な役割を果たす。
本稿では,行動制約付き模倣者がより広い行動空間を持つ実証的専門家から学習することを目的とした,行動制約付き模倣学習(ACIL)と呼ばれる新たな課題について検討する。
我々は、このミスマッチをテキストトラジェクトリアライメント(textittrajectory alignment)を通じて解決し、従来の専門家によるデモンストレーションを、アクション制約に固執しながら、同様の状態軌跡に従うサロゲートデータセットに置き換えるDTWILを提案する。
論文 参考訳(メタデータ) (2025-08-20T03:19:07Z) - Offline RLAIF: Piloting VLM Feedback for RL via SFO [4.391505380846452]
VLM(Vision-Language Models)は、アクション条件のトレーニングデータがないため、制御タスクを解く能力に制限がある。
AIフィードバックからの強化学習における重要な課題は、VLM由来の信号を学習プロセスに統合する方法を決定することだ。
論文 参考訳(メタデータ) (2025-03-02T23:52:46Z) - Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection [9.591251961378482]
本稿では, アンチスプーフィングタスクにおけるWavLMモデルの多層挙動について検討する。
We found that the early hidden transformer layer of the WavLM large model contribute significantly to anti-spoofing task。
論文 参考訳(メタデータ) (2024-06-12T08:27:44Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Anchor-Constrained Viterbi for Set-Supervised Action Segmentation [38.32743770719661]
本論文では,トレーニングにおける弱い監督下でのアクションセグメンテーションについて述べる。
ビデオフレームのラベル付けには多層パーセプトロン(MLP)をベースとしたHMM(Hidden Markov Model)を用いる。
テストでは、トレーニングで見られるアクションセットのモンテカルロサンプリングを使用して、アクションの候補時間シーケンスを生成する。
論文 参考訳(メタデータ) (2021-04-05T18:50:21Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。