論文の概要: Learning from Unlabeled 3D Environments for Vision-and-Language
Navigation
- arxiv url: http://arxiv.org/abs/2208.11781v1
- Date: Wed, 24 Aug 2022 21:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 12:59:19.808593
- Title: Learning from Unlabeled 3D Environments for Vision-and-Language
Navigation
- Title(参考訳): 視覚・言語ナビゲーションのためのラベルなし3次元環境からの学習
- Authors: Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid,
Ivan Laptev
- Abstract要約: 視覚言語ナビゲーション(VLN)では、自然言語の指示に従って現実的な3D環境をナビゲートするために、具体的エージェントが必要である。
我々はHM3Dから900の未ラベルの3Dビルディングから大規模VLNデータセットを自動生成することを提案する。
実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 87.03299519917019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In vision-and-language navigation (VLN), an embodied agent is required to
navigate in realistic 3D environments following natural language instructions.
One major bottleneck for existing VLN approaches is the lack of sufficient
training data, resulting in unsatisfactory generalization to unseen
environments. While VLN data is typically collected manually, such an approach
is expensive and prevents scalability. In this work, we address the data
scarcity issue by proposing to automatically create a large-scale VLN dataset
from 900 unlabeled 3D buildings from HM3D. We generate a navigation graph for
each building and transfer object predictions from 2D to generate pseudo 3D
object labels by cross-view consistency. We then fine-tune a pretrained
language model using pseudo object labels as prompts to alleviate the
cross-modal gap in instruction generation. Our resulting HM3D-AutoVLN dataset
is an order of magnitude larger than existing VLN datasets in terms of
navigation environments and instructions. We experimentally demonstrate that
HM3D-AutoVLN significantly increases the generalization ability of resulting
VLN models. On the SPL metric, our approach improves over state of the art by
7.1% and 8.1% on the unseen validation splits of REVERIE and SOON datasets
respectively.
- Abstract(参考訳): 視覚言語ナビゲーション(vln)では、自然言語命令に従って現実的な3d環境をナビゲートするために具体化エージェントが必要である。
既存のVLNアプローチの大きなボトルネックは、十分なトレーニングデータがないことである。
VLNデータは一般的に手作業で収集されるが、そのようなアプローチは高価でスケーラビリティを損なう。
本研究では,HM3Dから900の未ラベルの3Dビルディングから,大規模VLNデータセットを自動生成することを提案する。
2dから建物毎にナビゲーショングラフを生成し、オブジェクト予測を転送し、クロスビュー一貫性により擬似3dオブジェクトラベルを生成する。
次に、擬似オブジェクトラベルを用いて事前訓練された言語モデルを微調整し、命令生成におけるモード間ギャップを軽減する。
得られたHM3D-AutoVLNデータセットは、ナビゲーション環境や命令の観点から、既存のVLNデータセットよりも桁違いに大きい。
実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
SPL測定では,REVERIEデータセットとSOONデータセットの未確認検証分割に対して,手法の状態を7.1%,8.1%改善する。
関連論文リスト
- Open-Vocabulary High-Resolution 3D (OVHR3D) Data Segmentation and Annotation Framework [1.1280113914145702]
本研究の目的は,3次元セグメンテーションタスクのための包括的で効率的なフレームワークの設計と開発である。
このフレームワークはGrounding DINOとSegment Any Modelを統合し、3Dメッシュによる2D画像レンダリングの強化によって強化される。
論文 参考訳(メタデータ) (2024-12-09T07:39:39Z) - Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning [55.339257446600634]
大規模命令追従データに基づいて訓練された強力な3DLLMであるRobin3Dを紹介する。
我々は,344K の逆数サンプル,508K の逆数サンプル,および165K のベンチマーク・トレーニング・セットからなる100万の命令追従データを構築した。
Robin3Dは、広く使用されている5つのマルチモーダル学習ベンチマークにおいて、従来方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-09-30T21:55:38Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文 参考訳(メタデータ) (2023-06-19T07:03:45Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。