論文の概要: CoNav: Collaborative Cross-Modal Reasoning for Embodied Navigation
- arxiv url: http://arxiv.org/abs/2505.16663v1
- Date: Thu, 22 May 2025 13:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.323758
- Title: CoNav: Collaborative Cross-Modal Reasoning for Embodied Navigation
- Title(参考訳): CoNav: 身体的ナビゲーションのための協調的クロスモーダル推論
- Authors: Haihong Hao, Mingfei Han, Changlin Li, Zhihui Li, Xiaojun Chang,
- Abstract要約: 具体的ナビゲーションのためのコラボレーティブなクロスモーダル推論フレームワークであるCoNavを紹介した。
事前訓練された3Dテキストモデルは、構造化空間意味知識を提供することにより、画像テキストナビゲーションエージェントを明示的にガイドする。
CoNavは、標準的な4つのナビゲーションベンチマークで大幅に改善されている。
- 参考スコア(独自算出の注目度): 46.64659479759897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied navigation demands comprehensive scene understanding and precise spatial reasoning. While image-text models excel at interpreting pixel-level color and lighting cues, 3D-text models capture volumetric structure and spatial relationships. However, unified fusion approaches that jointly fuse 2D images, 3D point clouds, and textual instructions face challenges in limited availability of triple-modality data and difficulty resolving conflicting beliefs among modalities. In this work, we introduce CoNav, a collaborative cross-modal reasoning framework where a pretrained 3D-text model explicitly guides an image-text navigation agent by providing structured spatial-semantic knowledge to resolve ambiguities during navigation. Specifically, we introduce Cross-Modal Belief Alignment, which operationalizes this cross-modal guidance by simply sharing textual hypotheses from the 3D-text model to the navigation agent. Through lightweight fine-tuning on a small 2D-3D-text corpus, the navigation agent learns to integrate visual cues with spatial-semantic knowledge derived from the 3D-text model, enabling effective reasoning in embodied navigation. CoNav achieves significant improvements on four standard embodied navigation benchmarks (R2R, CVDN, REVERIE, SOON) and two spatial reasoning benchmarks (ScanQA, SQA3D). Moreover, under close navigation Success Rate, CoNav often generates shorter paths compared to other methods (as measured by SPL), showcasing the potential and challenges of fusing data from different modalities in embodied navigation. Project Page: https://oceanhao.github.io/CoNav/
- Abstract(参考訳): 身体的ナビゲーションは、総合的なシーン理解と正確な空間推論を必要とする。
画像テキストモデルはピクセルレベルの色とライティングキューの解釈に優れているが、3Dテキストモデルは体積構造と空間的関係を捉えている。
しかし、2次元画像、3次元点雲、テキスト命令を融合させる統合融合アプローチは、三重モードデータの可用性の制限や、モダリティ間の矛盾する信念の解決に困難に直面している。
本研究では,コラボレーティブな相互モーダル推論フレームワークであるCoNavを紹介する。このフレームワークでは,事前学習した3次元テキストモデルが,ナビゲーション中のあいまいさを解決するための構造化空間意味知識を提供することで,画像テキストナビゲーションエージェントを明示的にガイドする。
具体的には、3Dテキストモデルからナビゲーションエージェントへのテキスト仮説を単純に共有することで、クロスモーダルガイダンスを運用するクロスモーダルリーフアライメントを導入する。
ナビゲーションエージェントは、小さな2D-3Dテキストコーパスの軽量な微調整により、3Dテキストモデルから得られた空間意味知識と視覚的手がかりを統合することを学習し、具体的ナビゲーションにおける効果的な推論を可能にする。
CoNavは、標準的な4つのナビゲーションベンチマーク(R2R、CVDN、REVERIE、SOON)と2つの空間推論ベンチマーク(ScanQA、SQA3D)で大幅に改善されている。
さらに、近いナビゲーション成功率の下では、CoNavは(SPLによって測定された)他の方法と比較して短いパスを生成することが多く、具体化されたナビゲーションにおいて異なるモードからデータを融合する可能性と課題を示している。
プロジェクトページ: https://oceanhao.github.io/CoNav/
関連論文リスト
- CrossOver: 3D Scene Cross-Modal Alignment [78.3057713547313]
CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。
モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。
堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
論文 参考訳(メタデータ) (2025-02-20T20:05:30Z) - CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information [25.51740922661166]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、視覚的および言語的手がかりを統合することで、現実の環境を通して自律的なエージェントを誘導することを目的としている。
実都市の3次元環境における言語誘導型航法用に明示的に設計された新しいデータセットであるCityNavを紹介する。
CityNavは、新たに開発されたWebベースの3Dシミュレータを通じて収集された、人間の実証軌道と組み合わせた32kの自然言語記述で構成されている。
論文 参考訳(メタデータ) (2024-06-20T12:08:27Z) - NaviNeRF: NeRF-based 3D Representation Disentanglement by Latent Semantic Navigation [48.08517291377735]
3D表現のゆがみは、3Dデータの基本的な説明因子を特定し、分解し、操作することを目的としている。
NeRFは生成するNeRFパイプライン上に構築されており、アウターナビゲーションブランチとインナーリファインメントブランチを備えている。
NaviNeRFは、従来の3D対応モデルよりもきめ細かい3Dディスタングル能力が優れている。
論文 参考訳(メタデータ) (2023-04-22T07:48:17Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。