Fugu-MT 論文翻訳(概要): SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

論文の概要: SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

arxiv url: http://arxiv.org/abs/2603.12193v1
Date: Thu, 12 Mar 2026 17:23:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.250652
Title: SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics
Title（参考訳）: SaPaVe:ロボットの視覚・言語・行動モデルにおけるアクティブな知覚と操作を目指して
Authors: Mengzhen Liu, Enshen Zhou, Cheng Chi, Yi Han, Shanyu Rong, Liming Chen, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang,
Abstract要約: SaPaVeは、アクティブな知覚と操作能力を共同で学習するエンドツーエンドフレームワークである。セマンティックカメラ動作学習のための200k画像-言語-カメラ移動ペアのデータセットであるActiveViewPose-200Kを紹介する。また、固定ビュー設定を超えてアクティブ操作を評価するための最初のベンチマークであるActiveManip-Benchも提示する。
参考スコア（独自算出の注目度）: 45.436987571201335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Active perception and manipulation are crucial for robots to interact with complex scenes. Existing methods struggle to unify semantic-driven active perception with robust, viewpoint-invariant execution. We propose SaPaVe, an end-to-end framework that jointly learns these capabilities in a data-efficient manner. Our approach decouples camera and manipulation actions rather than placing them in a shared action space, and follows a bottom-up training strategy: we first train semantic camera control on a large-scale dataset, then jointly optimize both action types using hybrid data. To support this framework, we introduce ActiveViewPose-200K, a dataset of 200k image-language-camera movement pairs for semantic camera movement learning, and a 3D geometry-aware module that improves execution robustness under dynamic viewpoints. We also present ActiveManip-Bench, the first benchmark for evaluating active manipulation beyond fixed-view settings. Extensive experiments in both simulation and real-world environments show that SaPaVe outperforms recent vision-language-action models such as GR00T N1 and $π_0$, achieving up to 31.25\% higher success rates in real-world tasks. These results show that tightly coupled perception and execution, when trained with decoupled yet coordinated strategies, enable efficient and generalizable active manipulation. Project page: https://lmzpai.github.io/SaPaVe
Abstract（参考訳）: ロボットが複雑なシーンと対話するためには、アクティブな知覚と操作が不可欠である。既存の手法は、意味駆動型アクティブな知覚を堅牢で視点不変な実行で統一するのに苦労する。私たちは、これらの機能をデータ効率で共同で学習するエンドツーエンドフレームワークであるSaPaVeを提案する。まず、大規模なデータセットでセマンティックカメラコントロールをトレーニングし、次にハイブリッドデータを使用して両方のアクションタイプを共同で最適化する。このフレームワークをサポートするために、セマンティックカメラ運動学習のための200k画像-言語-カメラ移動ペアのデータセットであるActiveViewPose-200Kと、動的視点下での実行堅牢性を改善する3D幾何認識モジュールを紹介する。また、固定ビュー設定を超えてアクティブ操作を評価するための最初のベンチマークであるActiveManip-Benchも提示する。シミュレーションと実世界の環境の両方における大規模な実験により、SaPaVeはGR00T N1や $π_0$のような近年の視覚言語アクションモデルより優れており、実世界のタスクにおいて最大31.25\%の成功率を達成した。これらの結果は、密結合された知覚と実行が、非結合で協調的な戦略で訓練された場合、効率的で一般化可能な能動操作を可能にすることを示している。プロジェクトページ: https://lmzpai.github.io/SaPaVe

関連論文リスト

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文参考訳（メタデータ） (2026-02-23T11:00:08Z)
DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文参考訳（メタデータ） (2025-10-28T10:17:11Z)
Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文参考訳（メタデータ） (2025-08-18T17:12:28Z)
Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-15T06:40:38Z)
RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation [10.54770475137596]
動作学習から視覚的特徴抽出を分離する革新的なアプローチであるRoboUniViewを提案する。我々はまず、アクセスしやすいデータに基づいて事前学習することで、多視点ビューから統一されたビュー表現を学び、その後、この統合されたビュー表現からアクションを導出し、ロボット操作を制御する。 CALVINベンチマークの最先端性能を達成し、D$が93.0%から96.2%に、ABC$が92.2%から94.2%に、D$が93.0%から96.2%に向上した。
論文参考訳（メタデータ） (2024-06-27T08:13:33Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文参考訳（メタデータ） (2024-04-09T12:09:56Z)
Interactive Image Segmentation with Cross-Modality Vision Transformers [18.075338835513993]
クロスモダリティ・ビジョン・トランスフォーマーは、学習プロセスをより良くガイドするために相互情報を利用する。障害発生回避の観点からの本手法の安定性は,実用的なアノテーションツールとしての可能性を示している。
論文参考訳（メタデータ） (2023-07-05T13:29:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。