論文の概要: LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation
- arxiv url: http://arxiv.org/abs/2506.09935v1
- Date: Wed, 11 Jun 2025 16:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.149014
- Title: LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation
- Title(参考訳): LEO-VL:効率的な表現によるデータスケーリングによる3次元ビジョンランゲージジェネリストを目指して
- Authors: Jiangyong Huang, Xiaojian Ma, Xiongkun Linghu, Yue Fan, Junchao He, Wenxin Tan, Qing Li, Song-Chun Zhu, Yixin Chen, Baoxiong Jia, Siyuan Huang,
- Abstract要約: 3D-VLのジェネラリストを開発する上で重要な障害は、効率的なシーン表現が欠如していることによる、データのスケーラビリティにある。
本稿では,2次元知覚と3次元空間構造を橋渡しする効率的なシーン表現である,凝縮特徴格子(CFG)上に構築された3次元VLモデルLEO-VLを提案する。
我々は、現実世界の屋内シーンの4つの領域と、キャプションや対話といった5つのタスクにまたがる700万以上の高品質な3D-VLデータをキュレートする。
- 参考スコア(独自算出の注目度): 68.80467240885642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing 3D-VL generalists capable of understanding 3D scenes and following natural language instructions to perform a wide range of tasks has been a long-standing goal in the 3D-VL community. Despite recent progress, 3D-VL models still lag behind their 2D counterparts in capability and robustness, falling short of the generalist standard. A key obstacle to developing 3D-VL generalists lies in data scalability, hindered by the lack of an efficient scene representation. We propose LEO-VL, a 3D-VL model built upon condensed feature grid (CFG), an efficient scene representation that bridges 2D perception and 3D spatial structure while significantly reducing token overhead. This efficiency unlocks large-scale training towards 3D-VL generalist, for which we curate over 700k high-quality 3D-VL data spanning four domains of real-world indoor scenes and five tasks such as captioning and dialogue. LEO-VL achieves state-of-the-art performance on a variety of 3D QA benchmarks, including SQA3D, MSQA, and Beacon3D. Ablation studies confirm the efficiency of our representation, the importance of task and scene diversity, and the validity of our data curation principle. Furthermore, we introduce SceneDPO, a novel post-training objective that enhances the robustness of 3D-VL models. We hope our findings contribute to the advancement of scalable and robust 3D-VL generalists.
- Abstract(参考訳): 3D-VLの3Dシーンを理解し、さまざまなタスクを実行するための自然言語命令に従うことができる3D-VLジェネラリストの開発は、3D-VLコミュニティの長年の目標である。
最近の進歩にもかかわらず、3D-VLモデルは能力と堅牢性において2Dモデルより遅れており、ジェネラリスト標準には達していない。
3D-VLのジェネラリストを開発する上で重要な障害は、効率的なシーン表現が欠如していることによる、データのスケーラビリティにある。
コンデンサド・フィーチャーグリッド(CFG)上に構築された3次元VLモデルLEO-VLを提案する。
この効率性は、3D-VLジェネラリストに対する大規模なトレーニングを解き、現実世界の屋内シーンの4つの領域とキャプションや対話といった5つのタスクにまたがる700万以上の高品質な3D-VLデータをキュレートする。
LEO-VLは、SQA3D、MSQA、Beacon3Dを含む様々な3D QAベンチマークで最先端のパフォーマンスを達成する。
アブレーション研究は、我々の表現の効率性、タスクとシーンの多様性の重要性、およびデータキュレーションの原則の有効性を実証する。
さらに,3D-VLモデルのロバスト性を高める新しい訓練対象であるSceneDPOを紹介する。
この結果が,スケーラブルで堅牢な3D-VLジェネラリストの進展に寄与することを願っている。
関連論文リスト
- Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation [61.21302433849139]
VLN(Vision-and-Language Navigation)は、生体エージェントが空間移動を利用して3D環境をナビゲートするコアタスクである。
ナビゲーション動作予測において3D-VLMを学習するための視覚入力として,言語整列,一般化,階層的な3D表現を利用する動的階層化3D表現モデルDynam3Dを提案する。
我々のDynam3Dは3Dインスタンスのオンラインエンコーディングとローカライズが可能であり、それを動的に更新することで、ナビゲーションのための大規模な探索と長期記憶機能を提供する。
論文 参考訳(メタデータ) (2025-05-16T15:46:27Z) - Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis [65.42684641776931]
3Dビジョン言語(3D-VL)ベンチマークは、3D-VLモデルの評価に不足している。
我々は3D-VLグラウンドとQAタスクのベンチマークであるBeacon3Dを提案する。
論文 参考訳(メタデータ) (2025-03-28T13:32:29Z) - Unifying 3D Vision-Language Understanding via Promptable Queries [39.55438547712157]
3次元視覚言語(3D-VL)理解のための統一モデル。
PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-19T04:35:05Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment [44.00343134325925]
3D-VisTAは、3Dビジョンとテキストアライメントのための事前訓練されたトランスフォーマーである。
ScanScribeは、3D-VL事前トレーニングのための最初の大規模3Dシーンテキストペアデータセットである。
論文 参考訳(メタデータ) (2023-08-08T15:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。