論文の概要: DyGRO-VLA: Cross-Task Scaling of Vision-Language-Action Models via Dynamic Grouped Residual Optimization
- arxiv url: http://arxiv.org/abs/2605.17486v1
- Date: Sun, 17 May 2026 14:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.116868
- Title: DyGRO-VLA: Cross-Task Scaling of Vision-Language-Action Models via Dynamic Grouped Residual Optimization
- Title(参考訳): DyGRO-VLA:動的グループ化残差最適化による視覚・言語・反応モデルのクロスタスクスケーリング
- Authors: Sixu Lin, Yunpeng Qing, Litao Liu, Ming Zhou, Ruixing Jin, Xiaoyi Fan, Guiliang Liu,
- Abstract要約: 強化学習(RL)の最近の進歩は、ビジョン・ランゲージ・アクション(VLA)モデルを最適化するための原則的なアプローチを提供する。
制御精度の改善にもかかわらず、ほとんどのRLはタスク固有であり、VLAモデルをコントローラから限られたタスクに過度に適合するポリシーへ還元する。
この発見に触発されたDyGRO-VLAは、2段階の最適化フレームワークで、クロスタスクの潜在表現を効果的にキャプチャする。
- 参考スコア(独自算出の注目度): 15.973193543714006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in Reinforcement Learning (RL) provides a principled approach to optimizing Vision-Language-Action (VLA) models, facilitating a shift from trajectory imitation to active learning in the task environment. Despite improvements in control precision, most RL optimizers remain task-specific, which reduces VLA models from generalist controllers to policies that overfit to a narrow set of tasks. In this study, we conduct an in-depth analysis of this phenomenon and highlight the importance of cross-task feature representations for improving the generalizability of VLA models. Motivated by this finding, we introduce DyGRO-VLA, a two-stage optimization framework that 1) effectively captures cross-task latent representations based on information-theoretic principles, and 2) dynamically refines policy optimization via a mixture-of-RL-residuals. DyGRO-VLA enables the RL optimizer to exploit task-relevant latent information while strategically mitigating adverse interference on the learned representations throughout the optimization process. We evaluate our approach on LIBERO, RoboTwin2 benchmarks, and further validate it on real world, demonstrating consistent improvements over strong baselines under multi-task training and distribution shift.
- Abstract(参考訳): 強化学習(RL)の最近の進歩は、視覚・言語・アクション(VLA)モデルを最適化するための原則的なアプローチを提供し、軌道模倣からタスク環境におけるアクティブラーニングへの移行を促進する。
制御精度の改善にもかかわらず、ほとんどのRLオプティマイザはタスク固有であり、一般的なコントローラから狭いタスクに過度に適合するポリシーへVLAモデルを還元する。
本研究では,この現象の詳細な解析を行い,VLAモデルの一般化性向上のためのクロスタスク特徴表現の重要性を強調した。
この発見に動機づけられた2段階最適化フレームワークであるDyGRO-VLAを紹介した。
1)情報理論の原則に基づくクロスタスク潜在表現を効果的に捕捉し、
2)RLの混合残差による政策最適化を動的に洗練する。
DyGRO-VLAにより、RLオプティマイザは、タスク関連潜伏情報を利用して、最適化プロセスを通して学習した表現に対する有害な干渉を戦略的に軽減することができる。
我々は,LIBERO,RoboTwin2ベンチマークに対するアプローチを評価し,マルチタスクトレーニングおよび分散シフト下での強いベースラインに対する一貫した改善を実証し,実世界での検証を行った。
関連論文リスト
- ActionCodec: What Makes for Good Action Tokenizers [106.78093973045526]
VLA(Vision-Language-Action)モデルでは、より優れた命令追従と訓練効率が示されている。
このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てている。
我々は、トレーニング効率とVLA性能の両方を大幅に向上させる高性能なアクショントークンであるtextbfActionCodecを紹介する。
論文 参考訳(メタデータ) (2026-02-17T07:07:15Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - CRL-VLA: Continual Vision-Language-Action Learning [40.18167835795084]
連続強化学習は、生涯にわたるロボットシナリオにVLAモデルをデプロイするための、有望な経路である。
本稿では,厳密な理論的境界を持つVLAモデルの連続的な後学習のためのフレームワークであるCRL-VLAを紹介する。
安定塑性トレードオフと目標条件付き有利度をリンクする統一的な性能境界を,政策のばらつきによって拡張する。
論文 参考訳(メタデータ) (2026-02-03T12:09:53Z) - COVR:Collaborative Optimization of VLMs and RL Agent for Visual-Based Control [37.27710513408952]
視覚強化学習(RL)は、複雑なタスクにおける高次元観察により、サンプル効率の低下に悩まされる。
我々は,VLMおよびRLポリシーの相互強化を可能にする協調最適化フレームワークであるCOVRを提案する。
論文 参考訳(メタデータ) (2026-01-04T03:53:05Z) - COVLM-RL: Critical Object-Oriented Reasoning for Autonomous Driving Using VLM-Guided Reinforcement Learning [55.83415345423854]
批判的オブジェクト指向(CO)推論と強化学習(RL)を統合した新しいエンドツーエンド駆動フレームワークCOVLM-RLを提案する。
CARLAシミュレータで行った実験により、COVLM-RLはトレーニング運転環境における成功率を30%向上することが示された。
論文 参考訳(メタデータ) (2025-12-10T06:18:16Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning [38.68600863590734]
変分部分決定強化学習(VSC-RL)という新しい枠組みを提案する。
VSC-RLは、新たな最適化目標であるサブゴールエビデンス・ロウアーバウンド(Subgoal Evidence Lower Bound)を用いて、変分サブゴール条件付きRL問題として決定問題を再構成する。
我々は,VSC-RLが性能保証を損なうことなく,学習効率を効率的に向上できることを理論的かつ実証的に実証した。
論文 参考訳(メタデータ) (2025-02-11T20:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。