論文の概要: Learn Where Outcomes Diverge: Efficient VLA RL via Probabilistic Chunk Masking
- arxiv url: http://arxiv.org/abs/2605.16154v1
- Date: Fri, 15 May 2026 16:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.352987
- Title: Learn Where Outcomes Diverge: Efficient VLA RL via Probabilistic Chunk Masking
- Title(参考訳): 成果の多様性を学習する:確率的チャンクマスキングによる効率的なVLA RL
- Authors: Vaidehi Bagaria, Nikshep Grampurohit, Pulkit Verma,
- Abstract要約: 本稿では,軌道毎のチャンクの小さな確率的に選択されたサブセットに勾配を割り当てるGRPOのドロップイン修正である確率的チャンクマスキング(PCM)を提案する。
3つのLIBEROベンチマークでは、PCMは標準GRPOの最終的な成功率と一致し、2.38倍のウォールクロック速度、4.8倍の勾配更新、60%のピークアクティベーションメモリを達成した。
- 参考スコア(独自算出の注目度): 5.238545250784642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) allows vision-language-action (VLA) policies to generalize beyond their training distribution by optimizing directly for task success, but post-training is computationally expensive. A natural response has been to speed rollout collection through faster simulators and world models. In GRPO-based VLA RL, we find that the dominant cost lies elsewhere: gradient computation accounts for approximately 78% of wall-clock time per step in our runs, while rollout collection accounts for only 21%. Gradient cost dominates because much of this computation is spent on phases that contribute little to learning. GRPO's learning signal is driven by advantage variance: only phases where successful and failed rollouts diverge produce learning signal. However, GRPO assigns the same advantage to every chunk in a rollout. As a result, actor-update compute is spent uniformly across the trajectory, including phases the policy already handles after pre-training and supervised fine-tuning. This paper presents Probabilistic Chunk Masking (PCM), a drop-in modification to GRPO that allocates gradient computation to a small, probabilistically selected subset of chunks per trajectory. PCM scores semantic phases using success-failure action variance, a rollout-derived proxy for per-phase gradient variance, and samples a fixed chunk budget with online-updated phase-level keep probabilities. We formalize per-phase gradient variance as the quantity determines where gradient computation is useful and show that success-failure action variance provides a measurable proxy for it. PCM requires no reward model or learned critic. On three LIBERO benchmarks, PCM matches the final success rate of standard GRPO while achieving 2.38 times wall-clock speedup, 4.8 times faster gradient updates, and 60% lower peak activation memory, while backpropagating through fewer than 20% of trajectory chunks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、視覚言語アクション(VLA)ポリシーを、タスク成功のために直接最適化することで、トレーニングディストリビューションを超えて一般化することができるが、ポストトレーニングは計算コストが高い。
自然な反応は、より高速なシミュレータと世界モデルによるロールアウトコレクションの高速化である。
GRPOベースのVLA RLでは、グラデーション計算がステップ毎のウォールタイム時間の約78%を占め、ロールアウトコレクションはわずか21%である。
この計算の多くは、学習にはほとんど寄与しないフェーズに費やされているため、グラディエントなコストが支配的です。
GRPOの学習信号は、利点の分散によって駆動される。
しかし、GRPOはロールアウト中のすべてのチャンクに同じ利点を割り当てます。
結果として、アクター更新計算は、事前トレーニングと教師付き微調整の後にすでに処理されているフェーズを含む、軌道全体にわたって均一に費やされる。
本稿では,軌道毎のチャンクの小さな確率的に選択されたサブセットに勾配計算を割り当てるGRPOのドロップイン修正である確率的チャンクマスキング(PCM)を提案する。
PCMは、フェーズごとの勾配分散のためのロールアウト派生プロキシである成功-失敗アクション分散を用いてセマンティックフェーズをスコアし、オンライン更新フェーズレベルの維持確率で固定チャンク予算をサンプリングする。
そこで我々は,各位相勾配の分散を,勾配計算が有用な場所を決定する量として定式化し,成功・失敗動作の分散が測定可能なプロキシを提供することを示す。
PCMは報酬モデルや学習評論家を必要としない。
3つのLIBEROベンチマークでは、PCMは標準GRPOの最終的な成功率と一致し、2.38倍のウォールクロック速度、4.8倍の勾配更新、60%のピークアクティベーションメモリ、20%未満のトラジェクトリーチャンクをバックプロパゲートした。
関連論文リスト
- Off-Policy Value-Based Reinforcement Learning for Large Language Models [25.962820072445222]
ReValはベルマン更新に基づく手法で、内部の一貫性を捉える段階的な信号と、結果検証から導出される軌道レベルの信号を組み合わせる。
DeepSeek-R1-Distill-1.5Bでは、ReValはトレーニング効率を改善し、AIME24の2.7%、GRPOのGPQAの4.5%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-24T15:55:02Z) - Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning [38.78160379823724]
リカレントディープスVLA(Recurrent-Depth VLA)は、明示的なトークン生成ではなく、遅延反復精製による計算適応性を実現するアーキテクチャである。
RD-VLAは、メモリフットプリントが一定である任意の推論深度をサポートするリカレントで重み付けされたアクションヘッドを使用している。
論文 参考訳(メタデータ) (2026-02-08T07:21:01Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Learnable Distribution Calibration for Few-Shot Class-Incremental
Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。
本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。