論文の概要: Contrastive Representation Regularization for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2510.01711v1
- Date: Thu, 02 Oct 2025 06:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.253721
- Title: Contrastive Representation Regularization for Vision-Language-Action Models
- Title(参考訳): 視覚・言語・行動モデルに対するコントラスト表現規則化
- Authors: Taeyoung Kim, Jimin Lee, Myungkyu Koo, Dongyoung Kim, Kyungmin Lee, Changyeon Kim, Younggyo Seo, Jinwoo Shin,
- Abstract要約: 本稿では,ビジョン・ランゲージ・アクション(VLA)モデルの表現正規化であるロボット状態認識コントラスト損失(RS-CL)を紹介する。
特に、RS-CLは、状態間の相対的な距離をソフト・インスペクションとして使用することにより、ロボットの受容状態とより密に表現する。
実験の結果,RS-CLは最先端VLAモデルの操作性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 64.10170453130324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown its capabilities in robot manipulation by leveraging rich representations from pre-trained Vision-Language Models (VLMs). However, their representations arguably remain suboptimal, lacking sensitivity to robotic signals such as control actions and proprioceptive states. To address the issue, we introduce Robot State-aware Contrastive Loss (RS-CL), a simple and effective representation regularization for VLA models, designed to bridge the gap between VLM representations and robotic signals. In particular, RS-CL aligns the representations more closely with the robot's proprioceptive states, by using relative distances between the states as soft supervision. Complementing the original action prediction objective, RS-CL effectively enhances control-relevant representation learning, while being lightweight and fully compatible with standard VLA training pipeline. Our empirical results demonstrate that RS-CL substantially improves the manipulation performance of state-of-the-art VLA models; it pushes the prior art from 30.8% to 41.5% on pick-and-place tasks in RoboCasa-Kitchen, through more accurate positioning during grasping and placing, and boosts success rates from 45.0% to 58.3% on challenging real-robot manipulation tasks.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、事前訓練されたVision-Language Models(VLM)の豊かな表現を活用することで、ロボット操作の能力を示した。
しかし、それらの表現は間違いなく準最適であり、制御行動や受容状態のようなロボット信号に敏感ではない。
この問題に対処するために,VLAモデルの簡易かつ効果的な表現正規化であるロボット状態認識コントラシティブ・ロス(RS-CL)を導入し,VLM表現とロボット信号のギャップを埋める。
特に、RS-CLは、状態間の相対的な距離をソフト・インスペクションとして使用することにより、ロボットの受容状態とより密に表現する。
元のアクション予測の目的を補完するRS-CLは、軽量で標準のVLAトレーニングパイプラインと完全に互換性を持ちながら、制御関連表現学習を効果的に強化する。
実験の結果、RS-CLは最先端のVLAモデルの操作性能を大幅に向上し、ロボカサ・キッチェンのピック・アンド・プレイス・タスクでは30.8%から41.5%に向上し、実際のロボット操作タスクでは45.0%から58.3%に向上した。
関連論文リスト
- ROSA: Harnessing Robot States for Vision-Language and Action Alignment [24.426285156386715]
VLM(Vision-Language Models)は、エンドツーエンドのロボット制御において大きな進歩を遂げた。
本稿では,ロボットの状態推定を利用して視覚言語と行動空間のアライメントを改善する新しいトレーニングパラダイムROSAを提案する。
論文 参考訳(メタデータ) (2025-06-16T16:34:20Z) - From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。