論文の概要: Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds
- arxiv url: http://arxiv.org/abs/2602.00807v1
- Date: Sat, 31 Jan 2026 16:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.409483
- Title: Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds
- Title(参考訳): Any3D-VLA: 多様な点雲によるVLAロバスト性向上
- Authors: Xianzhe Fan, Shengliang Deng, Xiaoyang Wu, Yuxiang Lu, Zhuoling Li, Mi Yan, Yujia Zhang, Zhizheng Zhang, He Wang, Hengshuang Zhao,
- Abstract要約: 我々は、異なる観測空間と視覚的表現をまたいだパイロット研究を行う。
その結果、視覚的入力を点雲に明示的に持ち上げることで、対応する2次元表現をより補完する表現が得られることがわかった。
本稿では,(1)3次元データの不足,(2)環境横断差と奥行き偏差による領域ギャップの解消という課題に対処するAny3D-VLAを提案する。
- 参考スコア(独自算出の注目度): 57.024495128182195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Vision-Language-Action (VLA) models typically take 2D images as visual input, which limits their spatial understanding in complex scenes. How can we incorporate 3D information to enhance VLA capabilities? We conduct a pilot study across different observation spaces and visual representations. The results show that explicitly lifting visual input into point clouds yields representations that better complement their corresponding 2D representations. To address the challenges of (1) scarce 3D data and (2) the domain gap induced by cross-environment differences and depth-scale biases, we propose Any3D-VLA. It unifies the simulator, sensor, and model-estimated point clouds within a training pipeline, constructs diverse inputs, and learns domain-agnostic 3D representations that are fused with the corresponding 2D representations. Simulation and real-world experiments demonstrate Any3D-VLA's advantages in improving performance and mitigating the domain gap. Our project homepage is available at https://xianzhefan.github.io/Any3D-VLA.github.io.
- Abstract(参考訳): 既存のVision-Language-Action(VLA)モデルは2次元画像を視覚入力として取り、複雑なシーンにおける空間的理解を制限する。
VLAの能力を高めるために3D情報をどのように組み込むか?
我々は、異なる観測空間と視覚的表現をまたいだパイロット研究を行う。
その結果、視覚的入力を点雲に明示的に持ち上げると、対応する2次元表現をよりよく補完する表現が得られることがわかった。
本研究では,(1)3次元データの不足,(2)環境横断差と奥行き偏差に起因する領域ギャップに対処するため,Any3D-VLAを提案する。
トレーニングパイプライン内にシミュレータ、センサー、モデル推定点雲を統一し、多様な入力を構築し、対応する2D表現と融合したドメインに依存しない3D表現を学習する。
シミュレーションと実世界の実験は、Any3D-VLAの利点がパフォーマンスを改善し、ドメインギャップを軽減することを実証している。
プロジェクトのホームページはhttps://xianzhefan.github.io/Any3D-VLA.github.ioで公開されています。
関連論文リスト
- PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。