論文の概要: RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation
- arxiv url: http://arxiv.org/abs/2412.08591v1
- Date: Wed, 11 Dec 2024 18:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:22.643197
- Title: RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation
- Title(参考訳): RoomTour3D: 身体ナビゲーションのための幾何学的ビデオインストラクションチューニング
- Authors: Mingfei Han, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev,
- Abstract要約: Web ベースのルームツアービデオから派生したビデオインストラクションデータセットである RoomTour3D を紹介する。
RoomTour3Dは、オープンエンドの人間の歩行軌跡とオープンワールドのナビゲート可能な指示を生成する。
実験により、RoomTour3Dは複数の視覚・言語ナビゲーションタスクにまたがる大幅な改善が可能であることを実証した。
- 参考スコア(独自算出の注目度): 87.8836203762073
- License:
- Abstract: Vision-and-Language Navigation (VLN) suffers from the limited diversity and scale of training data, primarily constrained by the manual curation of existing simulators. To address this, we introduce RoomTour3D, a video-instruction dataset derived from web-based room tour videos that capture real-world indoor spaces and human walking demonstrations. Unlike existing VLN datasets, RoomTour3D leverages the scale and diversity of online videos to generate open-ended human walking trajectories and open-world navigable instructions. To compensate for the lack of navigation data in online videos, we perform 3D reconstruction and obtain 3D trajectories of walking paths augmented with additional information on the room types, object locations and 3D shape of surrounding scenes. Our dataset includes $\sim$100K open-ended description-enriched trajectories with $\sim$200K instructions, and 17K action-enriched trajectories from 1847 room tour environments. We demonstrate experimentally that RoomTour3D enables significant improvements across multiple VLN tasks including CVDN, SOON, R2R, and REVERIE. Moreover, RoomTour3D facilitates the development of trainable zero-shot VLN agents, showcasing the potential and challenges of advancing towards open-world navigation.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、既存のシミュレータのマニュアルキュレーションによって制約される、限られた多様性と訓練データのスケールに悩まされている。
この問題を解決するために、Webベースのルームツアービデオから派生したビデオインストラクションデータセットであるRoomTour3Dを紹介した。
既存のVLNデータセットとは異なり、RoomTour3Dはオンラインビデオのスケールと多様性を活用して、オープンエンドの人間の歩行軌跡とオープンワールドのナビゲーション可能な指示を生成する。
オンライン動画におけるナビゲーションデータの欠如を補うため、3次元再構成を行い、部屋の種類、物体の位置、周囲のシーンの3次元形状を付加した歩行経路の3次元軌跡を得る。
私たちのデータセットには、$\sim$100Kのオープンエンド記述強化トラジェクトリと$\sim$200Kのインストラクションと、1847年のルームツアー環境から17Kのアクション強化トラジェクトリが含まれています。
実験により,RoomTour3DはCVDN,SOON,R2R,REVERIEを含む複数のVLNタスクにまたがる大幅な改善が可能であることを実証した。
さらに、RoomTour3Dはトレーニング可能なゼロショットVLNエージェントの開発を促進し、オープンワールドナビゲーションに進む可能性と課題を示している。
関連論文リスト
- Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos [76.07894127235058]
本稿では,インターネットの立体視,広角ビデオから高品質な4D再構成をマイニングするシステムを提案する。
本研究では,この手法を用いて世界整合型擬似3次元点雲の形で大規模データを生成する。
DUSt3Rの変種をトレーニングし、実世界の画像対から構造と3次元運動を予測することで、このデータの有用性を実証する。
論文 参考訳(メタデータ) (2024-12-12T18:59:54Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language
Navigation [59.3649071376364]
既存のVLN法の性能は、ナビゲーション環境の多様性の不足と限られたトレーニングデータによって制限される。
VLN-Videoは、米国内の複数の都市において、自動生成ナビゲーション命令で動画を駆動する際の多様な屋外環境を利用する。
VLN-Videoは従来の最先端モデルのタスク完了率2.1%を大きく上回っている。
論文 参考訳(メタデータ) (2024-02-05T22:20:19Z) - 3D-Aware Object Goal Navigation via Simultaneous Exploration and
Identification [19.125633699422117]
本稿では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。
私たちのフレームワークは,Matterport3DとGibsonのデータセット上で,すべてのモジュールベースのメソッドの中で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-12-01T07:55:56Z) - 3D Visual Tracking Framework with Deep Learning for Asteroid Exploration [22.808962211830675]
本稿では,3次元追跡のための高精度かつリアルタイムな手法について検討する。
両眼ビデオシーケンス、深度マップ、様々な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示されている。
深層学習に基づく3DトラッキングフレームワークTrack3Dを提案する。このフレームワークは,2次元単分子トラッカーと,新しい軽量アモーダル軸整合バウンディングボックスネットワークであるA3BoxNetを備える。
論文 参考訳(メタデータ) (2021-11-21T04:14:45Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。