論文の概要: PVI: Plug-in Visual Injection for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.12772v1
- Date: Fri, 13 Mar 2026 08:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.994628
- Title: PVI: Plug-in Visual Injection for Vision-Language-Action Models
- Title(参考訳): PVI:視覚・言語・アクションモデルのためのプラグインビジュアルインジェクション
- Authors: Zezhou Zhang, Songxin Zhang, Xiao Xiong, Junjie Zhang, Zejian Xie, Jingyi Xi, Zunyao Mao, Zan Mao, Zhixin Mai, Zhuoyang Song, Jiaxing Zhang,
- Abstract要約: 事前訓練されたVLMとフローマッチングアクションエキスパートを組み合わせたVLAは、言語条件による操作の強力なパラダイムとして登場した。
このモジュールは、訓練済みのアクションエキスパートにアタッチされ、ゼロd残差経路を介して補助的な視覚表現を注入する。
- 参考スコア(独自算出の注目度): 8.641415997612066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: VLA architectures that pair a pretrained VLM with a flow-matching action expert have emerged as a strong paradigm for language-conditioned manipulation. Yet the VLM, optimized for semantic abstraction and typically conditioned on static visual observations, tends to attenuate fine-grained geometric cues and often lacks explicit temporal evidence for the action expert. Prior work mitigates this by injecting auxiliary visual features, but existing approaches either focus on static spatial representations or require substantial architectural modifications to accommodate temporal inputs, leaving temporal information underexplored. We propose Plug-in Visual Injection (PVI), a lightweight, encoder-agnostic module that attaches to a pretrained action expert and injects auxiliary visual representations via zero-initialized residual pathways, preserving pretrained behavior with only single-stage fine-tuning. Using PVI, we obtain consistent gains over the base policy and a range of competitive alternative injection strategies, and our controlled study shows that temporal video features (V-JEPA2) outperform strong static image features (DINOv2), with the largest gains on multi-phase tasks requiring state tracking and coordination. Real-robot experiments on long-horizon bimanual cloth folding further demonstrate the practicality of PVI beyond simulation.
- Abstract(参考訳): 事前訓練されたVLMとフローマッチングアクションエキスパートを組み合わせたVLAアーキテクチャは、言語条件による操作の強力なパラダイムとして登場した。
しかし、VLMはセマンティックな抽象化に最適化され、通常静的な視覚的な観察を前提としており、微粒な幾何学的手がかりを減らしがちであり、しばしばアクション専門家の明確な時間的証拠を欠いている。
以前の作業では、補助的な視覚的特徴を注入することでこれを緩和するが、既存のアプローチでは、静的な空間的表現に焦点を当てるか、時間的入力に対応するためにかなりのアーキテクチャ的な修正が必要であり、時間的情報が過小評価されている。
このモジュールは、事前訓練されたアクションエキスパートにアタッチされ、ゼロ初期化残差経路を介して補助的な視覚表現を注入し、単一ステージの微調整のみで事前訓練された動作を保存する。
PVIを用いて, 時間的映像特徴 (V-JEPA2) が強い静的画像特徴 (DINOv2) を上回り, 状態追跡と調整を必要とするマルチフェーズタスクにおいて最大の利得が得られた。
長い水平二面布の折り畳みに関する実ロボット実験は、シミュレーション以外のPVIの実用性をさらに証明している。
関連論文リスト
- ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - ESPADA: Execution Speedup via Semantics Aware Demonstration Data Downsampling for Imitation Learning [18.435889278351297]
ESPADAは3Dグリップ・オブジェクト関係を持つVLM-LLMパイプラインを使用して、デモをセグメント化するセマンティックなフレームワークである。
1つの注釈付きエピソードからフルデータセットにスケールするために、ESPADAはDynamic Time Warpingを通じてセグメントラベルを伝搬する。
ESPADAは成功率を維持しながら約2倍のスピードアップを実現し、人間のデモと効率的なロボット制御のギャップを狭める。
論文 参考訳(メタデータ) (2025-12-08T10:08:33Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - VITA: Vision-to-Action Flow Matching Policy [27.783132918359545]
VITAはノイズフリーで条件なしのポリシー学習フレームワークである。
フローマッチングを使って視覚表現を潜在アクションにマッピングする。
ALOHAとRoomimicの8つのシミュレーションと2つの実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-07-17T15:41:57Z) - From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。
特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。
Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文 参考訳(メタデータ) (2025-06-30T05:01:40Z) - AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis [52.261173507177396]
AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。
AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。
また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
論文 参考訳(メタデータ) (2025-03-27T18:30:47Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [53.5449912019877]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - Off-policy Imitation Learning from Visual Inputs [83.22342811160114]
本稿では、政治以外の学習方法、データ拡張、エンコーダ技術からなるOPIfVIを提案する。
OPIfVIは、エキスパートレベルのパフォーマンスを実現し、既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-11-08T09:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。