論文の概要: LEO-VL: Efficient Scene Representation for Scalable 3D Vision-Language Learning
- arxiv url: http://arxiv.org/abs/2506.09935v2
- Date: Fri, 26 Sep 2025 13:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.443192
- Title: LEO-VL: Efficient Scene Representation for Scalable 3D Vision-Language Learning
- Title(参考訳): LEO-VL:スケーラブルな3次元視覚言語学習のための効率的なシーン表現
- Authors: Jiangyong Huang, Xiaojian Ma, Xiongkun Linghu, Yue Fan, Junchao He, Wenxin Tan, Qing Li, Song-Chun Zhu, Yixin Chen, Baoxiong Jia, Siyuan Huang,
- Abstract要約: 主なボトルネックは、現在のシーン表現がパフォーマンスと効率のバランスをとるのに苦労していることです。
本稿では,トークンのオーバーヘッドを大幅に低減し,認識能力の強い,効率的なシーン表現であるコンデンス機能グリッド(CFG)を提案する。
実世界の4つの屋内ドメインと、キャプションや対話といった5つのタスクにまたがる700k3D-VLデータに基づいて訓練された3D VLMであるLEO-VLを紹介する。
- 参考スコア(独自算出の注目度): 63.19329995235114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing vision-language models (VLMs) capable of understanding 3D scenes has been a longstanding goal in the 3D-VL community. Despite recent progress, 3D VLMs still fall short of their 2D counterparts in capability and robustness. A key bottleneck is that current scene representations struggle to balance performance and efficiency: competitive performance comes at the cost of heavy token overhead, which in turn hampers the scalability of 3D-VL learning. To address this, we propose the condensed feature grid (CFG), an efficient scene representation featuring significantly reduced token overhead and strong perception capability. Building on CFG, we introduce LEO-VL, a 3D VLM trained on 700k 3D-VL data spanning four real-world indoor domains and five tasks such as captioning and dialogue. To enhance the robustness of 3D VLM, we further propose SceneDPO for post-training, which involves contrasts across answers and scenes. LEO-VL achieves state-of-the-art performance on various 3D QA benchmarks, including SQA3D, MSQA, and Beacon3D. Our extensive experiments highlight the efficiency of our representation, the benefit of task and scene diversity, consistent scaling effects, and the advantages of SceneDPO compared to SFT and GRPO. We hope our findings advance the efficiency, scalability, and robustness of future 3D VLMs.
- Abstract(参考訳): 3Dシーンを理解できる視覚言語モデル(VLM)の開発は、3D-VLコミュニティの長年の目標である。
最近の進歩にもかかわらず、3D VLMは能力と堅牢性で2Dに劣っている。
現在のシーン表現は、パフォーマンスと効率のバランスをとるのに苦労している。競合するパフォーマンスは、重いトークンオーバーヘッドを犠牲にし、3D-VL学習のスケーラビリティを損なう。
そこで本研究では,トークンのオーバーヘッドを大幅に低減し,認識能力の強い,効率的なシーン表現であるコンデンスド・フィーチャー・グリッド(CFG)を提案する。
CFG上に構築したLEO-VLは,実世界の4つの屋内ドメインと,キャプションや対話といった5つのタスクにまたがる700k3D-VLデータに基づいて訓練された3次元VLMである。
3次元VLMのロバスト性を高めるために,回答とシーン間のコントラストを含むポストトレーニングのためのSceneDPOを提案する。
LEO-VLは、SQA3D、MSQA、Beacon3Dなど、様々な3D QAベンチマークで最先端のパフォーマンスを達成する。
我々の広範な実験は、SFTやGRPOと比較して、我々の表現の効率、タスクとシーンの多様性の利点、一貫したスケーリング効果、SceneDPOの利点を強調している。
今後の3D VLMの効率性,スケーラビリティ,堅牢性の向上が期待できる。
関連論文リスト
- 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding [11.069512983766783]
大規模視覚言語モデル(VLM)は2次元視覚理解タスクにおいて大きな進歩を遂げている。
本稿では,3次元VLMの推論能力を高める基礎モデルである3D-R1を提案する。
大規模な実験によると、3D-R1は様々な3Dシーンベンチマークで平均10%改善されている。
論文 参考訳(メタデータ) (2025-07-31T11:59:06Z) - Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation [61.21302433849139]
VLN(Vision-and-Language Navigation)は、生体エージェントが空間移動を利用して3D環境をナビゲートするコアタスクである。
ナビゲーション動作予測において3D-VLMを学習するための視覚入力として,言語整列,一般化,階層的な3D表現を利用する動的階層化3D表現モデルDynam3Dを提案する。
我々のDynam3Dは3Dインスタンスのオンラインエンコーディングとローカライズが可能であり、それを動的に更新することで、ナビゲーションのための大規模な探索と長期記憶機能を提供する。
論文 参考訳(メタデータ) (2025-05-16T15:46:27Z) - Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis [65.42684641776931]
3Dビジョン言語(3D-VL)ベンチマークは、3D-VLモデルの評価に不足している。
我々は3D-VLグラウンドとQAタスクのベンチマークであるBeacon3Dを提案する。
論文 参考訳(メタデータ) (2025-03-28T13:32:29Z) - Unifying 3D Vision-Language Understanding via Promptable Queries [39.55438547712157]
3次元視覚言語(3D-VL)理解のための統一モデル。
PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-19T04:35:05Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment [44.00343134325925]
3D-VisTAは、3Dビジョンとテキストアライメントのための事前訓練されたトランスフォーマーである。
ScanScribeは、3D-VL事前トレーニングのための最初の大規模3Dシーンテキストペアデータセットである。
論文 参考訳(メタデータ) (2023-08-08T15:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。