論文の概要: From Abstraction to Instantiation: Learning Behavioral Representation for Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2605.22671v1
- Date: Thu, 21 May 2026 16:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.340536
- Title: From Abstraction to Instantiation: Learning Behavioral Representation for Vision-Language-Action Model
- Title(参考訳): 抽象からInstantiationへ:視覚・言語・行動モデルにおける行動表現の学習
- Authors: Bing Hu, Zaijing Li, Rui Shao, Junda Chen, April Hua Liu, Wei-Shi Zheng, Liqiang Nie,
- Abstract要約: VLA(Vision-Language-Action)モデルは、分散シフト時にしばしば性能劣化に悩まされる。
時間的コヒーレントな行動表現の学習を通じて堅牢な操作を容易にするフレームワークである textbfBehaviorVLA を提案する。
RoboTwin 2.0、LIBERO、CALVINの実験では、最先端の成功率は58%、98%、および4.36(Avg.Len)である。
- 参考スコア(独自算出の注目度): 76.88595728131288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models often suffer from performance degradation under distribution shifts, as they struggle to learn generalized behavior representations across varying environments. While existing approaches attempt to construct behavior representations through action-centric latent variables, they are often limited by short-horizon temporal fragmentation and static execution-alignment, leading to inconsistent behaviors in complex scenarios. To address these limitations, we propose \textbf{BehaviorVLA}, a framework that facilitates robust manipulation through the learning of a temporally coherent behavioral representations. Our approach features two symmetric components: (1) the \textbf{Visuomotor Behavior Encoder (VBE)}, which utilizes a causal Mamba-based architecture to aggregate long-horizon trajectory information into a unified behavior representation; and (2) the \textbf{Phase-conditioned Behavior Decoder (PBD)}, which decodes this representation into precise actions by dynamically aligning task-level priors with real-time execution progress. Experiments on RoboTwin 2.0, LIBERO, and CALVIN demonstrate state-of-the-art success rates of 58\%, 98\%, and 4.36 (Avg.Len), respectively. Notably, in real-world sim-to-real transfer, BehaviorVLA matches the performance of OpenVLA-OFT using only 50\% of the demonstration data, showcasing its superior data efficiency and generalization.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、様々な環境にまたがる一般化された行動表現を学ぶのに苦労するため、分散シフトの下で性能劣化に悩まされることが多い。
既存のアプローチでは、アクション中心の潜伏変数を通じて振舞い表現を構築しようとするが、多くの場合、短い水平時間的断片化と静的な実行アライメントによって制限され、複雑なシナリオでは矛盾する振舞いをもたらす。
このような制約に対処するため,時間的コヒーレントな行動表現の学習を通じて堅牢な操作を容易にするフレームワークである「textbf{BehaviorVLA}」を提案する。
提案手法は,(1) 因果的マンバに基づくアーキテクチャを用いて,長い水平軌道情報を統一された動作表現に集約する,(VBE) と(PBD) の2つの対称成分を特徴付ける。
RoboTwin 2.0、LIBERO、CALVINの実験では、それぞれ58\%、98\%、および4.36(Avg.Len)の最先端の成功率を示した。
特に実世界のsim-to-real転送において、BehavimentVLAはデモデータのわずか50%でOpenVLA-OFTのパフォーマンスと一致し、その優れたデータ効率と一般化を示す。
関連論文リスト
- RotVLA: Rotational Latent Action for Vision-Language-Action Model [54.22746299071677]
本稿では,連続的な回転潜在動作表現に基づくVLAフレームワークであるRotVLAを紹介する。
潜在作用はSO(n) の元としてモデル化され、連続性、構成性、および実世界の作用力学と整合した構造的幾何学を提供する。
RotVLAはVLMバックボーンとフローマッチングアクションヘッドで構成される。
論文 参考訳(メタデータ) (2026-05-13T11:58:02Z) - VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models [27.12266806191131]
VLA(Vision-Language-Action)モデルは、ロボットが複雑な命令駆動タスクを実行できるように、急速に高度なインボディードインテリジェンスを備えている。
現在のアプローチはしばしば、操作をサポートする視覚的にスパースで構造的に重要な領域を創り出し、初期のタスクフェーズの不安定な振る舞いを引き起こす。
提案手法であるVLA-IAP(Interaction-Aligned Pruning)では,構造的アンカーを保存するための幾何学的事前メカニズムと動的スケジューリング戦略を導入する。
論文 参考訳(メタデータ) (2026-03-24T09:33:05Z) - Hierarchical Action Learning for Weakly-Supervised Action Segmentation [43.688046710022626]
弱教師付きアクションセグメンテーションのための階層的アクション学習(textbfHAL)モデルを提案する。
提案手法では,階層的な因果データ生成プロセスを導入し,低レベル視覚特徴のダイナミクスを高レベル潜在動作が支配する。
実験結果から, TextbfHAL モデルでは, 動作セグメンテーションにおける既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2026-02-27T18:48:22Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation [52.83157499300261]
時間的推論と閉ループ適応を統合した動的オブジェクト操作のフレームワークであるDynamicVLAを提案する。
我々は、自動データ収集パイプラインでスクラッチから構築されたDynamic Object Manipulationベンチマークを紹介します。
広範囲な評価は、応答速度、知覚、一般化の顕著な改善を示している。
論文 参考訳(メタデータ) (2026-01-29T18:59:51Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation [65.6201974979119]
本稿では,効率的なロボットマニピュレーションのためのセマンティックスペーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークSemanticVLAを提案する。
SemanticVLAはOpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。
論文 参考訳(メタデータ) (2025-11-13T17:24:37Z) - Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning [13.411096520754507]
既存のビデオキャプション手法は、単にオブジェクトの振舞いの浅いあるいは単純化した表現を提供するだけである。
本稿では,オブジェクトの振る舞いの本質を包括的に把握する動的アクション意味認識グラフ変換器を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。