論文の概要: Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2505.11383v1
- Date: Fri, 16 May 2025 15:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.479752
- Title: Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation
- Title(参考訳): Dynam3D:動的層状3DTokens Empower VLM for Vision-and-Language Navigation
- Authors: Zihan Wang, Seungjun Lee, Gim Hee Lee,
- Abstract要約: VLN(Vision-and-Language Navigation)は、生体エージェントが空間移動を利用して3D環境をナビゲートするコアタスクである。
ナビゲーション動作予測において3D-VLMを学習するための視覚入力として,言語整列,一般化,階層的な3D表現を利用する動的階層化3D表現モデルDynam3Dを提案する。
我々のDynam3Dは3Dインスタンスのオンラインエンコーディングとローカライズが可能であり、それを動的に更新することで、ナビゲーションのための大規模な探索と長期記憶機能を提供する。
- 参考スコア(独自算出の注目度): 61.21302433849139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) is a core task where embodied agents leverage their spatial mobility to navigate in 3D environments toward designated destinations based on natural language instructions. Recently, video-language large models (Video-VLMs) with strong generalization capabilities and rich commonsense knowledge have shown remarkable performance when applied to VLN tasks. However, these models still encounter the following challenges when applied to real-world 3D navigation: 1) Insufficient understanding of 3D geometry and spatial semantics; 2) Limited capacity for large-scale exploration and long-term environmental memory; 3) Poor adaptability to dynamic and changing environments.To address these limitations, we propose Dynam3D, a dynamic layered 3D representation model that leverages language-aligned, generalizable, and hierarchical 3D representations as visual input to train 3D-VLM in navigation action prediction. Given posed RGB-D images, our Dynam3D projects 2D CLIP features into 3D space and constructs multi-level 3D patch-instance-zone representations for 3D geometric and semantic understanding with a dynamic and layer-wise update strategy. Our Dynam3D is capable of online encoding and localization of 3D instances, and dynamically updates them in changing environments to provide large-scale exploration and long-term memory capabilities for navigation. By leveraging large-scale 3D-language pretraining and task-specific adaptation, our Dynam3D sets new state-of-the-art performance on VLN benchmarks including R2R-CE, REVERIE-CE and NavRAG-CE under monocular settings. Furthermore, experiments for pre-exploration, lifelong memory, and real-world robot validate the effectiveness of practical deployment.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが空間移動を利用して3D環境の中を移動し、自然言語の指示に基づいて指定された目的地に向かうための中核的なタスクである。
近年,VLNタスクに適用した場合,強力な一般化能力と豊富なコモンセンス知識を備えたビデオ言語大モデル (VLM) が顕著な性能を示した。
しかし、これらのモデルは、現実世界の3Dナビゲーションに適用した場合、以下の課題に直面している。
1)3次元幾何学及び空間意味論の不十分な理解
2 大規模探査及び長期環境記憶の限られた能力
3) 動的・変動環境への適応性の低いDynam3Dを提案する。Dynam3Dは,ナビゲーション動作予測における3D-VLM訓練のための視覚入力として,言語整合性,一般化性,階層型3D表現を利用する動的3D表現モデルである。
提案したRGB-D画像から,Dynam3Dは2D CLIP機能を3次元空間に投影し,動的かつ階層的な更新戦略による3次元幾何学的・意味的理解のためのマルチレベル3Dパッチインスタンスゾーン表現を構築する。
我々のDynam3Dは3Dインスタンスのオンラインエンコーディングとローカライズが可能であり、それを動的に更新することで、ナビゲーションのための大規模な探索と長期記憶機能を提供する。
大規模な3D言語の事前学習とタスク固有の適応を活用して、Dynam3Dは、モノクロ設定下でR2R-CE、REVERIE-CE、NavRAG-CEを含むVLNベンチマークに、最先端のパフォーマンスを新たに設定する。
さらに, 予備探索, 生涯記憶, 実世界のロボット実験により, 実用的展開の有効性が検証された。
関連論文リスト
- Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。