論文の概要: ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2601.08325v1
- Date: Tue, 13 Jan 2026 08:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.763167
- Title: ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation
- Title(参考訳): ActiveVLA:精密3次元ロボットマニピュレーションのための視覚・言語・アクションモデルへのアクティブ知覚注入
- Authors: Zhenyang Liu, Yongchong Gu, Yikai Wang, Xiangyang Xue, Yanwei Fu,
- Abstract要約: ActiveVLAは視覚言語によるアクションフレームワークで、ロボットに高い精度できめ細かな操作を可能にする。
我々は,ActiveVLAが3つのシミュレーションベンチマークで高精度な3D操作を実現し,最先端のベースラインを上回っていることを示す。
- 参考スコア(独自算出の注目度): 52.94334113271359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in robot manipulation have leveraged pre-trained vision-language models (VLMs) and explored integrating 3D spatial signals into these models for effective action prediction, giving rise to the promising vision-language-action (VLA) paradigm. However, most existing approaches overlook the importance of active perception: they typically rely on static, wrist-mounted cameras that provide an end-effector-centric viewpoint. As a result, these models are unable to adaptively select optimal viewpoints or resolutions during task execution, which significantly limits their performance in long-horizon tasks and fine-grained manipulation scenarios. To address these limitations, we propose ActiveVLA, a novel vision-language-action framework that empowers robots with active perception capabilities for high-precision, fine-grained manipulation. ActiveVLA adopts a coarse-to-fine paradigm, dividing the process into two stages: (1) Critical region localization. ActiveVLA projects 3D inputs onto multi-view 2D projections, identifies critical 3D regions, and supports dynamic spatial awareness. (2) Active perception optimization. Drawing on the localized critical regions, ActiveVLA uses an active view selection strategy to choose optimal viewpoints. These viewpoints aim to maximize amodal relevance and diversity while minimizing occlusions. Additionally, ActiveVLA applies a 3D zoom-in to improve resolution in key areas. Together, these steps enable finer-grained active perception for precise manipulation. Extensive experiments demonstrate that ActiveVLA achieves precise 3D manipulation and outperforms state-of-the-art baselines on three simulation benchmarks. Moreover, ActiveVLA transfers seamlessly to real-world scenarios, enabling robots to learn high-precision tasks in complex environments.
- Abstract(参考訳): ロボット操作の最近の進歩は、事前学習された視覚言語モデル(VLM)を活用し、これらのモデルに3次元空間信号を統合して効果的な行動予測を行い、将来性のある視覚言語行動(VLA)パラダイムを生み出している。
しかし、既存のほとんどのアプローチは、アクティブな知覚の重要性を軽視している。
その結果、これらのモデルはタスク実行中に最適な視点や解像度を適応的に選択することができず、長い水平タスクやきめ細かい操作シナリオにおけるパフォーマンスを著しく制限する。
これらの制約に対処するため,我々は,ロボットに高精度できめ細かな操作を可能にする視覚言語アクションフレームワークであるActiveVLAを提案する。
ActiveVLAは粗大なパラダイムを採用し、プロセスを2段階に分割する。
ActiveVLAは、マルチビュー2Dプロジェクションに3D入力を投影し、重要な3D領域を特定し、動的空間認識をサポートする。
(2)能動的知覚最適化
局所臨界領域に基づいて、ActiveVLAは最適な視点を選択するためにアクティブなビュー選択戦略を使用する。
これらの視点は、オクルージョンを最小化しながら、アモーダルな関連性と多様性を最大化することを目的としている。
さらに、ActiveVLAはキー領域の解像度を改善するために3Dズームインを適用している。
これらのステップは、精密な操作のためのよりきめ細かい能動的知覚を可能にする。
大規模な実験により、ActiveVLAは正確な3D操作を実現し、3つのシミュレーションベンチマークで最先端のベースラインを上回ります。
さらに、ActiveVLAは現実のシナリオにシームレスに移行し、ロボットが複雑な環境で高精度なタスクを学習できるようにする。
関連論文リスト
- Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models [42.57469056850227]
VLA(Vision-Language-Action)モデルは最近、ロボットの知覚と制御において顕著な進歩を遂げている。
深度推定をVLAモデルに統合し,3次元特徴表現を充実させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:57:32Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments [36.84821207878773]
マルチモーダル大言語モデル(MLLM)における視覚的推論は、主に静的で完全に観測可能な設定で研究されている。
AVR(Active Visual Reasoning)タスクを導入し、視覚的推論を部分的に観察可能で対話的な環境に拡張する。
推論と情報収集の効率性の両方を評価するために,複数ラウンドの対話型環境を特徴とするベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:59:00Z) - PointVLA: Injecting the 3D World into Vision-Language-Action Models [10.758939578236582]
我々は,ポイントクラウド入力を必要とせずに,事前学習された視覚言語行動モデルを強化するフレームワークであるPointVLAを提案する。
本手法は,バニラ動作の専門家を凍結し,軽量なモジュールブロックを介して3次元特徴を注入する。
PointVLAは、シミュレーションと現実世界の両方のロボットタスクにおいて、最先端の2D模倣学習方法より優れています。
論文 参考訳(メタデータ) (2025-03-10T16:32:41Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。