Fugu-MT 論文翻訳(概要): Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

論文の概要: Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

arxiv url: http://arxiv.org/abs/2603.09259v1
Date: Tue, 10 Mar 2026 06:47:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.106724
Title: Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos
Title（参考訳）: Webビデオからの視覚・言語ナビゲーションのためのインプシット幾何表現法
Authors: Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev,
Abstract要約: 本稿では,Web ベースのルームツアービデオから派生した大規模ビデオ教育フレームワークを提案する。既存のデータセットとは異なり、我々のフレームワークは3Dで再構成されたオープンエンドな記述リッチな軌跡とアクションリッチな軌跡を統合している。この研究の鍵となる拡張は暗黙の幾何学的表現の取り込みであり、それは、脆弱な3D再構成を必要とせず、RGBフレームから直接空間的手がかりを抽出するものである。
参考スコア（独自算出の注目度）: 87.15961946494629
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision-and-Language Navigation (VLN) has long been constrained by the limited diversity and scalability of simulator-curated datasets, which fail to capture the complexity of real-world environments. To overcome this limitation, we introduce a large-scale video-instruction framework derived from web-based room tour videos, enabling agents to learn from natural human walking demonstrations in diverse, realistic indoor settings. Unlike existing datasets, our framework integrates both open-ended description-enriched trajectories and action-enriched trajectories reconstructed in 3D, providing richer spatial and semantic supervision. A key extension in this work is the incorporation of implicit geometry representations, which extract spatial cues directly from RGB frames without requiring fragile 3D reconstruction. This approach substantially improves data utilization, alleviates reconstruction failures, and unlocks large portions of previously unusable video data. Comprehensive experiments across multiple VLN benchmarks (CVDN, SOON, R2R, and REVERIE) demonstrate that our method not only sets new state-of-the-art performance but also enables the development of robust zero-shot navigation agents. By bridging large-scale web videos with implicit spatial reasoning, this work advances embodied navigation towards more scalable, generalizable, and real-world applicable solutions.
Abstract（参考訳）: VLN(Vision-and-Language Navigation)は、シミュレータで計算したデータセットの多様性とスケーラビリティの制限により、現実の環境の複雑さを捉えることができなかった。この制限を克服するために、Webベースのルームツアービデオから派生した大規模なビデオインストラクションフレームワークを導入し、エージェントは多様なリアルな屋内環境で自然の人間の歩行デモから学ぶことができる。既存のデータセットとは異なり、我々のフレームワークは3Dで再構成されたオープンエンドな記述リッチな軌跡とアクションリッチな軌跡の両方を統合し、より豊かな空間的・意味的な監督を提供する。この研究の鍵となる拡張は暗黙の幾何学的表現の取り込みであり、それは、脆弱な3D再構成を必要とせず、RGBフレームから直接空間的手がかりを抽出するものである。このアプローチは、データ利用を大幅に改善し、再構築の失敗を軽減し、これまで使用できなかったビデオデータの大部分をアンロックする。複数のVLNベンチマーク(CVDN, SOON, R2R, REVERIE)の総合的な実験により,本手法は新たな最先端性能を設定できるだけでなく,ロバストなゼロショットナビゲーションエージェントの開発も可能であることが示された。この研究は、暗黙の空間的推論で大規模なWebビデオをブリッジすることで、よりスケーラブルで、一般化可能で、現実世界に適用可能なソリューションへと、具体化されたナビゲーションを前進させる。

関連論文リスト

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation [9.379574254353352]
RANGERは、モノクロカメラのみを使用して動作する、ゼロショットでオープンなセマンティックナビゲーションフレームワークである。新しい環境の短いビデオを単純に観察することで、アーキテクチャの変更や微調整を必要とせずにタスク効率を大幅に改善することができる。 HM3Dベンチマークと実世界の環境実験により、RANGERは航法成功率と探索効率の点で競争性能を発揮することが示された。
論文参考訳（メタデータ） (2025-12-30T13:25:22Z)
SpatialMosaic: A Multiview VLM Dataset for Partial Visibility [25.874299974251965]
本稿では,現実的な空間推論QAを構築する,スケーラブルなマルチビューデータ生成とアノテーションパイプラインを提案する。本研究では,現実的かつ困難なシナリオ下での多視点空間推論評価のためのベンチマークであるSpatialMosaic-Benchを紹介する。また、3次元再構成モデルを視覚言語モデル内の幾何学エンコーダとして統合するハイブリッドフレームワークであるSpatialMosaicVLMを提案する。
論文参考訳（メタデータ） (2025-12-29T10:48:54Z)
Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文参考訳（メタデータ） (2025-07-05T14:15:52Z)
Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)
SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。 SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文参考訳（メタデータ） (2025-05-17T13:05:13Z)
Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation [61.21302433849139]
VLN(Vision-and-Language Navigation)は、生体エージェントが空間移動を利用して3D環境をナビゲートするコアタスクである。ナビゲーション動作予測において3D-VLMを学習するための視覚入力として,言語整列,一般化,階層的な3D表現を利用する動的階層化3D表現モデルDynam3Dを提案する。我々のDynam3Dは3Dインスタンスのオンラインエンコーディングとローカライズが可能であり、それを動的に更新することで、ナビゲーションのための大規模な探索と長期記憶機能を提供する。
論文参考訳（メタデータ） (2025-05-16T15:46:27Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。