論文の概要: RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2511.01331v1
- Date: Mon, 03 Nov 2025 08:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.176231
- Title: RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models
- Title(参考訳): RobustVLA:視覚・言語・アクションモデルのためのロバストネスを意識したトレーニング後の強化
- Authors: Hongyin Zhang, Shuo Zhang, Junxi Jin, Qixin Zeng, Runze Li, Donglin Wang,
- Abstract要約: Vision-Language-Action (VLA)モデルは、配布外デプロイメントにおいて確実に一般化できない。
本稿では,VLAモデルのレジリエンスを明示的に向上するための軽量オンラインRLポストトレーニング手法であるRobustVLAを紹介する。
本研究は,VLAモデルの信頼性向上とロバスト性向上に向けた重要なステップとして,ロバストネスを意識したRLポストトレーニングの重要性を強調した。
- 参考スコア(独自算出の注目度): 33.503927352666096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have recently emerged as powerful general-purpose policies for robotic manipulation, benefiting from large-scale multi-modal pre-training. However, they often fail to generalize reliably in out-of-distribution deployments, where unavoidable disturbances such as observation noise, sensor errors, or actuation perturbations become prevalent. While recent Reinforcement Learning (RL)-based post-training provides a practical means to adapt pre-trained VLA models, existing methods mainly emphasize reward maximization and overlook robustness to environmental uncertainty. In this work, we introduce RobustVLA, a lightweight online RL post-training method designed to explicitly enhance the resilience of VLA models. Through a systematic robustness analysis, we identify two key regularizations: Jacobian regularization, which mitigates sensitivity to observation noise, and smoothness regularization, which stabilizes policies under action perturbations. Extensive experiments across diverse robotic environments demonstrate that RobustVLA significantly outperforms prior state-of-the-art methods in robustness and reliability. Our results highlight the importance of principled robustness-aware RL post-training as a key step toward improving the reliability and robustness of VLA models.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは最近、大規模なマルチモーダル事前トレーニングの恩恵を受けながら、ロボット操作のための強力な汎用ポリシーとして登場した。
しかし、観測ノイズやセンサエラー、アクチュエータの摂動といった避けられない障害が頻繁に発生するような、流通外の展開において、確実に一般化することができないことが多い。
最近の強化学習(Reinforcement Learning, RL)に基づくポストトレーニングは、事前訓練されたVLAモデルを適応するための実践的な手段を提供するが、既存の手法は主に報酬の最大化を強調し、環境の不確実性に対する堅牢性を見落としている。
本稿では,VLAモデルのレジリエンスを明示的に向上するために設計された軽量オンラインRLポストトレーニング手法であるRobostVLAを紹介する。
系統的ロバストネス解析により,観測雑音に対する感度を緩和するジャコビアン正則化と,行動摂動下での政策を安定化する滑らか性正則化の2つの重要な正則化を同定する。
多様なロボット環境にわたる大規模な実験により、ロバストVLAは、堅牢性と信頼性において、最先端の手法を著しく上回っていることが示された。
本稿では,VLAモデルの信頼性と堅牢性向上に向けた重要なステップとして,原則的ロバスト性を考慮したRLポストトレーニングの重要性を強調した。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - CRL-VLA: Continual Vision-Language-Action Learning [40.18167835795084]
連続強化学習は、生涯にわたるロボットシナリオにVLAモデルをデプロイするための、有望な経路である。
本稿では,厳密な理論的境界を持つVLAモデルの連続的な後学習のためのフレームワークであるCRL-VLAを紹介する。
安定塑性トレードオフと目標条件付き有利度をリンクする統一的な性能境界を,政策のばらつきによって拡張する。
論文 参考訳(メタデータ) (2026-02-03T12:09:53Z) - Learning to be Reproducible: Custom Loss Design for Robust Neural Networks [4.3094059981414405]
予測精度とトレーニング安定性のバランスをとるカスタムロス関数(CLF)を提案する。
CLFは予測性能を犠牲にすることなくトレーニングを大幅に改善する。
これらの結果は、より安定的で信頼性があり、信頼できるニューラルネットワークを開発するための効率的かつ効率的な戦略として、CLFを確立している。
論文 参考訳(メタデータ) (2026-01-02T05:31:08Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision [29.848085169124605]
不安定な信号を吸収し、より信頼性の高い優位性推定を可能にすることにより、雑音の緩和に強い値モデルが不可欠であることを示す。
ノイズの多い監督下での堅牢なPPOトレーニングのための価値中心のフレームワークであるVRPOを提案する。
論文 参考訳(メタデータ) (2025-08-05T04:05:15Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - SALSA-RL: Stability Analysis in the Latent Space of Actions for Reinforcement Learning [2.7075926292355286]
本研究では,SALSA-RL(Stability Analysis in the Latent Space of Actions)を提案する。
SALSA-RLは、様々なベンチマーク環境における性能を損なうことなく、事前訓練されたRLエージェントからの動作の局所的安定性を評価するために、非侵襲的な方法で展開可能であることを実証する。
論文 参考訳(メタデータ) (2025-02-21T15:09:39Z) - Improving Vision-Language-Action Model with Online Reinforcement Learning [17.043068379668842]
近年の研究では、教師付き微調整により、大規模視覚言語モデルを低レベルロボット制御に統合することに成功した。
VLAモデルを効果的に改善するために、強化学習と監視学習を反復するiRe-VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-28T02:53:48Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。