論文の概要: Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning
- arxiv url: http://arxiv.org/abs/2606.02274v2
- Date: Sat, 06 Jun 2026 05:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.782255
- Title: Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning
- Title(参考訳): Dexterity-BEV: 汎用ロボット政策学習のための3D世界と行動
- Authors: Huayi Zhou, Wei Gao, Dekun Lu, Ruiji Liu, Zhanqi Zhang, Ziyang Zhang, Jian Chen, Wenlve Zhou, Sheng Xu, Shumin Li, Kangyi Guo, Shichen Xu, Zixin Huang, Yongyi Su, Kui Jia,
- Abstract要約: エンドツーエンドの操作ポリシーは、汎用的で巧妙なロボット操作を約束することを示している。
2Dファンデーションモデルから2つの重要な制限を継承する。
これらの問題に対処するために、一連のコントリビューションを提示します。
- 参考スコア(独自算出の注目度): 51.799524981291235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end manipulation policies, combined with web-scale pretrained Vision-Language Models (VLMs), show the promise for generalizable and dexterous robotic manipulation. However, they inherit two key limitations from 2D foundation models: 1) the reliance on 2D RGB inputs that ignores the intrinsically 3D nature of manipulation; and 2) the lack of spatial 3D alignment between input-output spaces as well as across diverse robot embodiments, camera setups, and trajectory datasets. In this paper, we present a series of contributions to address these issues. First, we introduce aligned vertex map and vertex spectrum -- a pixel-wise 3D representation that elevates 2D visual inputs to 3D, using camera calibration and optional depth. This novel input representation marries 3D awareness with the generalization of 2D large VLMs. Then, we propose to align the inputs and outputs of manipulation policies by expressing per-pixel 3D information of each camera view and robot actions to a shared coordinate. Based on this, we designate a canonical Bird's-Eye-View (BEV) alignment frame and innovatively propose to construct BEV images, producing a view-invariant representation robust to camera pose variations. To enable training and evaluation at scale, we develop a comprehensive data processing pipeline to perform such alignments; we also introduce a novel temporal alignment scheme for trajectories across diverse robots, human operators, and datasets. These contributions collectively mitigate input and output spatial-temporal misalignments, improving the consistency and generalization for real-world manipulation. Pretrained checkpoint, source code and data processing pipeline are available in https://hnuzhy.github.io/projects/Dex-BEV.
- Abstract(参考訳): エンド・ツー・エンドの操作ポリシーとWebスケールで事前訓練されたビジョン・ランゲージ・モデル(VLM)が組み合わさって、汎用的で器用なロボット操作の可能性を示している。
しかし、2Dファンデーションモデルから2つの重要な制限を継承する。
1)本質的な操作の3D特性を無視した2次元RGB入力への依存
2) 入力出力空間間の空間的3次元アライメントの欠如, 多様なロボットエボディメント, カメラ設定, 軌跡データセットの多様さについて検討した。
本稿では,これらの問題に対処するための一連のコントリビューションを紹介する。
まず、カメラキャリブレーションとオプションの深さを用いて、2次元の視覚入力を3Dに高めるピクセルワイド3D表現である、アライメント頂点マップと頂点スペクトルを導入する。
この新規な入力表現は、2次元大規模VLMの一般化と3次元認識を結合する。
そこで我々は,各カメラビューとロボット動作の画素ごとの3D情報を共有座標に表現することで,操作ポリシーの入力と出力を調整することを提案する。
そこで我々は,標準的なBird's-Eye-View(BEV)アライメントフレームを設計し,BEV画像の構築を革新的に提案する。
大規模なトレーニングと評価を可能にするため,このようなアライメントを行うための包括的データ処理パイプラインを開発し,多様なロボット,人間オペレータ,データセットを対象としたトラジェクトリのための新しい時間的アライメント方式を導入する。
これらのコントリビューションは、入力と出力の時空間的不一致を緩和し、現実世界の操作の一貫性と一般化を改善する。
事前トレーニングされたチェックポイント、ソースコード、およびデータ処理パイプラインはhttps://hnuzhy.github.io/projects/Dex-BEVで利用可能である。
関連論文リスト
- Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models [65.05130114320734]
一般化可能なロボット制御の基礎は、広く採用されている視覚言語やビデオモデルではなく、視覚幾何学のバックボーンであるべきだと我々は主張する。
本研究では,事前訓練されたネイティブ3次元表現上でのアクション生成を直接条件付きで行うビジョン・ジオメトリ・アクション・モデルを提案する。
具体的には、VGAは従来の言語やビデオのバックボーンを事前訓練された3Dワールドモデルに置き換え、シームレスな視覚と幾何学のマッピングを確立する。
論文 参考訳(メタデータ) (2026-04-14T15:57:16Z) - Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds [57.024495128182195]
我々は、異なる観測空間と視覚的表現をまたいだパイロット研究を行う。
その結果、視覚的入力を点雲に明示的に持ち上げることで、対応する2次元表現をより補完する表現が得られることがわかった。
本稿では,(1)3次元データの不足,(2)環境横断差と奥行き偏差による領域ギャップの解消という課題に対処するAny3D-VLAを提案する。
論文 参考訳(メタデータ) (2026-01-31T16:34:52Z) - RoboTAG: End-to-end Robot Configuration Estimation via Topological Alignment Graph [62.270763554624615]
単眼のRGB画像からロボットのポーズを推定することは、ロボット工学とコンピュータビジョンにおける課題である。
既存の手法は通常、2Dビジュアルバックボーン上にネットワークを構築し、トレーニングのためにラベル付きデータに大きく依存する。
ロボットトポロジカルアライメントグラフ(RoboTAG)を提案する。このグラフは3次元分岐を組み込んで3次元前処理を注入し、2次元および3次元表現の共進化を可能にする。
論文 参考訳(メタデータ) (2025-11-11T00:49:15Z) - Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - VPOcc: Exploiting Vanishing Point for 3D Semantic Occupancy Prediction [24.947072696837118]
3Dシーンを意味的かつ空間的に理解することは、ロボットや自動運転車の安全なナビゲーションに不可欠である。
カメラベースの3Dセマンティック占有予測は、2D画像から完全なボクセルグリッドを推定する。
このタスクは本質的に2D-3Dの相違に悩まされ、カメラからの距離に応じて3D空間で同じ大きさの物体が異なる大きさの2D画像に現れる。
本稿では,2D-3Dの相違を画素レベルと特徴レベルの両方で緩和するために,消失点(VP)を利用するVPOccという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T05:23:52Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。