論文の概要: RoVLA: Multi-Consistency Constraints for Robust Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.19678v1
- Date: Tue, 19 May 2026 11:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.296111
- Title: RoVLA: Multi-Consistency Constraints for Robust Vision-Language-Action Models
- Title(参考訳): RoVLA:ロバスト・ビジョン・ランゲージ・アクションモデルのためのマルチ一貫性制約
- Authors: Jingzhou Luo, Yifan Wen, Yongjie Bai, Xinshuai Song, Yang Liu, Liang Lin,
- Abstract要約: VLA(Vision-Language-Action)モデルは、具体的操作において強力な性能を示している。
視覚的な観察の変化、言い換えられた言語指示、複雑な摂動の下でも不安定なままである。
マルチ一貫性制約を持つ堅牢な視覚-言語-アクションフレームワークであるRoVLAを提案する。
- 参考スコア(独自算出の注目度): 41.35967018882011
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown strong performance on embodied manipulation, yet they remain brittle under visual observation changes, paraphrased language instructions, and compounded perturbations. This limitation suggests that existing methods still rely heavily on shallow correlations in the training distribution, rather than learning stable couplings among task semantics, environment states, and action generation. Although recent efforts improve robustness through larger-scale training, post-training adaptation, or enhanced predictive modeling, they rarely enforce invariance-oriented consistency within the end-to-end policy itself. To address this issue, we propose RoVLA, a robust vision-language-action framework with multi-consistency constraints. RoVLA enforces consistency under three complementary transformations: instruction semantics, trajectory evolution, and observation perturbation. Specifically, Instructional Consistency (IC) promotes stable grounding under semantically equivalent instruction rewrites, Evolutionary Consistency (EC) preserves coherent action intent throughout the generation process, and Observational Consistency (OC) improves robustness to visual and proprioceptive perturbations by enforcing consistent predictions before and after targeted disturbances. By explicitly modeling these invariances during training, RoVLA reduces reliance on superficial correlations and improves robustness and generalization. Experiments on LIBERO-Plus, RoboTwin 2.0, and real-world manipulation tasks show that RoVLA consistently outperforms strong baseline methods and exhibits superior robustness under diverse task and observation shifts. These results demonstrate the effectiveness of multi-consistency learning for robust embodied control. Codes will be available at https://github.com/HCPLab-SYSU/RoVLA.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、体操において強い性能を示すが、視覚的観察の変化、パラフレーズ言語命令、複合摂動の下では不安定なままである。
この制限は、既存の手法がタスクセマンティクス、環境状態、行動生成の間の安定した結合を学習するのではなく、トレーニング分布の浅い相関に大きく依存していることを示している。
近年の取り組みは、大規模トレーニングやポストトレーニング適応、予測モデリングの強化を通じて堅牢性を向上させるが、エンドツーエンドポリシー自体において、不変性指向の一貫性を強制することは滅多にない。
この問題に対処するために,マルチ一貫性制約を持つ堅牢な視覚言語対応フレームワークであるRoVLAを提案する。
RoVLAは、命令意味論、軌道進化、観察摂動という3つの相補的な変換の下で一貫性を強制する。
具体的には、インストラクショナル・一貫性(IC)は、意味論的に等価な命令書き直しの下で安定した基盤化を促進し、進化的一貫性(EC)は、生成過程を通して一貫性のある行動意図を保ち、観察的一貫性(OC)は、標的外乱の前後で一貫した予測を強制することによって、視覚的および受容的摂動に対する堅牢性を改善する。
トレーニング中にこれらの不変性を明示的にモデル化することにより、RoVLAは表面的相関への依存を減らし、堅牢性と一般化を改善する。
LIBERO-Plus、RoboTwin 2.0、および実世界の操作タスクの実験では、RoVLAは強いベースライン法を一貫して上回り、多様なタスクや観測シフトの下で優れた堅牢性を示す。
これらの結果から,頑健な具体化制御のためのマルチ一貫性学習の有効性が示された。
コードはhttps://github.com/HCPLab-SYSU/RoVLAで入手できる。
関連論文リスト
- STRONG-VLA: Decoupled Robustness Learning for Vision-Language-Action Models under Multimodal Perturbations [26.063335767640083]
本稿では、VLA(Vision-Language-Action)モデルのための切り離された微調整フレームワークSTRONG-VLAを提案する。
ステージIでは、モデルは困難が増す多モーダル摂動のカリキュラムに晒される。
ステージIIでは、モデルはクリーンなタスク分布と整合して、堅牢性を維持しながら実行の忠実さを回復します。
LIBEROベンチマークの実験では、STRONG-VLAは複数のVLAアーキテクチャにおけるタスク成功率を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-11T06:37:47Z) - Robust Skills, Brittle Grounding: Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking [6.713814849613683]
視覚言語アクション(VLA)ポリシーは、比較的少数のデモで強力な操作ベンチマーク性能を報告している。
本研究は, オブジェクト配置のばらつきを, 作業空間のランダム化まで徐々に増大させる多目的ピッキング研究である。
SmolVLAや$_0.5$といった代表的VLAポリシでは、操作プリミティブの実行は、命令条件のタスク成功よりもかなり信頼性が高いことが分かりました。
論文 参考訳(メタデータ) (2026-02-27T16:20:04Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models [69.58413440457828]
VLA(Vision-Language-Action)モデルは、チェーン・オブ・思想(CoT)推論の恩恵を受けるが、既存のアプローチでは高い推論オーバーヘッドが生じる。
本稿では,マルチモーダル CoT 推論を具体化するための連続潜時表現に内包する統合 VLA フレームワークである Latent Reasoning VLA (textbfLaRA-VLA) を提案する。
論文 参考訳(メタデータ) (2026-02-01T11:34:37Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。