論文の概要: Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy
- arxiv url: http://arxiv.org/abs/2508.13103v1
- Date: Mon, 18 Aug 2025 17:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.504009
- Title: Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy
- Title(参考訳): カメラ空間における接地行動:観察中心の視覚・言語・行動政策
- Authors: Tianyi Zhang, Haonan Duan, Haoran Hao, Yu Qiao, Jifeng Dai, Zhi Hou,
- Abstract要約: 本稿では,カメラの観測空間にアクション予測を直接適用するOC-VLA(Observatory-Centric VLA)フレームワークを紹介する。
OC-VLAは、ロボットベース座標系からカメラ座標系にエンドエフェクターポーズを変換する。
この戦略は、カメラ視点の変化に対するモデルレジリエンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 47.51062818231493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models frequently encounter challenges in generalizing to real-world environments due to inherent discrepancies between observation and action spaces. Although training data are collected from diverse camera perspectives, the models typically predict end-effector poses within the robot base coordinate frame, resulting in spatial inconsistencies. To mitigate this limitation, we introduce the Observation-Centric VLA (OC-VLA) framework, which grounds action predictions directly in the camera observation space. Leveraging the camera's extrinsic calibration matrix, OC-VLA transforms end-effector poses from the robot base coordinate system into the camera coordinate system, thereby unifying prediction targets across heterogeneous viewpoints. This lightweight, plug-and-play strategy ensures robust alignment between perception and action, substantially improving model resilience to camera viewpoint variations. The proposed approach is readily compatible with existing VLA architectures, requiring no substantial modifications. Comprehensive evaluations on both simulated and real-world robotic manipulation tasks demonstrate that OC-VLA accelerates convergence, enhances task success rates, and improves cross-view generalization. The code will be publicly available.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、観測空間と行動空間の間に固有の相違があるため、現実の環境に一般化する際の課題にしばしば遭遇する。
トレーニングデータは多様なカメラの観点から収集されるが、モデルは通常、ロボットベース座標フレーム内のエンドエフェクターのポーズを予測し、空間的不整合をもたらす。
この制限を緩和するために、カメラの観測空間に直接アクション予測を行うOC-Centric VLA(OC-VLA)フレームワークを導入する。
OC-VLAは、カメラの外部キャリブレーション行列を利用して、ロボットベース座標系からカメラ座標系にエンドエフェクターのポーズを変換し、不均一な視点で予測ターゲットを統一する。
この軽量でプラグアンドプレイの戦略は、知覚とアクションの堅牢な整合性を確保し、カメラ視点のバリエーションに対するモデルのレジリエンスを大幅に改善する。
提案手法は既存のVLAアーキテクチャと容易に互換性があり、実質的な変更は不要である。
シミュレーションおよび実世界のロボット操作タスクに関する総合的な評価は、OC-VLAが収束を加速し、タスクの成功率を高め、クロスビューの一般化を改善することを示す。
コードは公開されます。
関連論文リスト
- DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [56.3802428957899]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Observe Then Act: Asynchronous Active Vision-Action Model for Robotic Manipulation [19.17977467107072]
本モデルでは,カメラのNext-Best-View(NBV)ポリシーとグリップのNext-Best Pose(NBP)ポリシーを直列接続し,数発の強化学習を用いてセンサ・モーター協調フレームワークでトレーニングする。
このアプローチにより、エージェントは3人称カメラを調整し、タスクゴールに基づいて環境を積極的に観察し、その後に適切な操作行動を推測することができる。
その結果,操作タスクにおける視覚的制約処理の有効性を示すとともに,ベースラインアルゴリズムを一貫して上回る結果が得られた。
論文 参考訳(メタデータ) (2024-09-23T10:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。