論文の概要: AnyCamVLA: Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.05868v1
- Date: Fri, 06 Mar 2026 03:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.976274
- Title: AnyCamVLA: Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models
- Title(参考訳): AnyCamVLA: 視点ロバストな視線ランゲージ・アクションモデルのためのゼロショットカメラ適応
- Authors: Hyeongjun Heo, Seungyeon Woo, Sang Min Kim, Junho Kim, Junho Lee, Yonghyeon Lee, Young Min Kim,
- Abstract要約: デモデータやポリシーの微調整,アーキテクチャの変更を伴わないゼロショットカメラ適応フレームワークを提案する。
私たちのキーとなるアイデアは、テスト時間カメラの観察をリアルタイムで調整し、トレーニングカメラの設定に合わせることです。
このアプローチは、ポリシーの微調整や視覚入力のための3D認識機能にデータ拡張を使用するベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 33.20237572326132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite remarkable progress in Vision-Language-Action models (VLAs) for robot manipulation, these large pre-trained models require fine-tuning to be deployed in specific environments. These fine-tuned models are highly sensitive to camera viewpoint changes that frequently occur in unstructured environments. In this paper, we propose a zero-shot camera adaptation framework without additional demonstration data, policy fine-tuning, or architectural modification. Our key idea is to virtually adjust test-time camera observations to match the training camera configuration in real-time. For that, we use a recent feed-forward novel view synthesis model which outputs high-quality target view images, handling both extrinsic and intrinsic parameters. This plug-and-play approach preserves the pre-trained capabilities of VLAs and applies to any RGB-based policy. Through extensive experiments on the LIBERO benchmark, our method consistently outperforms baselines that use data augmentation for policy fine-tuning or additional 3D-aware features for visual input. We further validate that our approach constantly enhances viewpoint robustness in real-world robotic manipulation scenarios, including settings with varying camera extrinsics, intrinsics, and freely moving handheld cameras.
- Abstract(参考訳): ロボット操作のためのVLA(Vision-Language-Action Model)の顕著な進歩にもかかわらず、これらの大きな事前訓練されたモデルは特定の環境に展開するために微調整が必要である。
これらの微調整されたモデルは、非構造化環境で頻繁に起こるカメラ視点の変化に非常に敏感である。
本稿では、追加のデモデータ、ポリシーの微調整、アーキテクチャ変更を伴わないゼロショットカメラ適応フレームワークを提案する。
私たちのキーとなるアイデアは、テスト時間カメラの観察をリアルタイムで調整し、トレーニングカメラの設定に合わせることです。
そこで我々は,近年のフィードフォワード新規ビュー合成モデルを用いて,外在的パラメータと内在的パラメータの両方を扱い,高品質なターゲット画像を生成する。
このプラグアンドプレイアプローチは、VLAの事前訓練された能力を保持し、あらゆるRGBベースのポリシーに適用する。
LIBEROベンチマークの広範な実験を通じて、ポリシーの微調整や視覚入力に付加された3D認識機能にデータ拡張を利用するベースラインを一貫して上回っている。
さらに,本手法は実世界のロボット操作シナリオにおいて,様々なカメラ外在性,内在性,自由移動型ハンドヘルドカメラの設定などの視点ロバスト性を常に向上することを示す。
関連論文リスト
- Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures [18.241178853941623]
本稿では,映像拡散モデルにおける多視点キャラクタ一貫性と3Dカメラ制御の両立を可能にするフレームワークを提案する。
我々は、このデータに基づいて、最先端のオープンソースビデオ拡散モデルを微調整し、強力なマルチビューID保存を提供する。
私たちのフレームワークは、マルチオブジェクト生成を含む、仮想プロダクションのコア機能もサポートしています。
論文 参考訳(メタデータ) (2025-10-16T00:20:57Z) - PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control [67.17998939712326]
本稿では,ロボットの状態推定と制御を単一のフレームワーク内で統一する条件拡散モデルPoseDiffを提案する。
中心となるPoseDiffは、生の視覚を3Dキーポイントや関節角などの構造化されたロボットの状態にマッピングする。
この基盤の上に構築されたPoseDiffは、ビデオからアクションへの逆ダイナミクスに自然に拡張する。
論文 参考訳(メタデータ) (2025-09-29T10:55:48Z) - Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy [47.51062818231493]
本稿では,カメラの観測空間にアクション予測を直接適用するOC-VLA(Observatory-Centric VLA)フレームワークを紹介する。
OC-VLAは、ロボットベース座標系からカメラ座標系にエンドエフェクターポーズを変換する。
この戦略は、カメラ視点の変化に対するモデルレジリエンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-18T17:10:45Z) - OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance [69.40274699401473]
本稿では,効率的なカメラ制御学習フレームワークであるEPiCを紹介する。
高価なカメラ軌跡アノテーションを使わずに高品質なアンカービデオを構築する。
EPiCはI2Vカメラ制御タスクに対してRealEstate10KとMiraDataのSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-05-28T01:45:26Z) - DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving [9.882070476776274]
一般化可能なカメラシミュレーションフレームワークDriveCamSimを提案する。
私たちの中心となるイノベーションは、提案されているExplicit Camera Modelingメカニズムにあります。
制御可能な生成のために、既存の条件エンコーディングおよびインジェクションパイプラインに固有の情報損失の問題を同定する。
論文 参考訳(メタデータ) (2025-05-26T08:50:15Z) - UniDrive: Towards Universal Driving Perception Across Camera Configurations [38.40168936403638]
3次元認識は,3次元2次元投影に基づく2次元画像から3次元情報を推測することを目的としている。
カメラ構成をまたいだ一般化は、異なる自動車モデルに自律運転モデルをデプロイする上で重要である。
我々は、カメラ構成全体にわたって普遍的な認識を実現するために、視覚中心の自律運転のための新しいフレームワークUniDriveを提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Diversity-Driven View Subset Selection for Indoor Novel View Synthesis [54.468355408388675]
本稿では、包括的多様性に基づく測定と、よく設計されたユーティリティ機能を統合する新しいサブセット選択フレームワークを提案する。
私たちのフレームワークは、データの5~20%しか使用せずに、ベースライン戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - Self-Supervised Camera Self-Calibration from Video [34.35533943247917]
汎用カメラモデルの効率的なファミリーを用いてシーケンスごとのキャリブレーションパラメータを回帰する学習アルゴリズムを提案する。
提案手法は,サブピクセル再投射誤差による自己校正を行い,他の学習手法よりも優れる。
論文 参考訳(メタデータ) (2021-12-06T19:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。