論文の概要: Learning from Unlabeled 3D Environments for Vision-and-Language
Navigation
- arxiv url: http://arxiv.org/abs/2208.11781v1
- Date: Wed, 24 Aug 2022 21:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 12:59:19.808593
- Title: Learning from Unlabeled 3D Environments for Vision-and-Language
Navigation
- Title(参考訳): 視覚・言語ナビゲーションのためのラベルなし3次元環境からの学習
- Authors: Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid,
Ivan Laptev
- Abstract要約: 視覚言語ナビゲーション(VLN)では、自然言語の指示に従って現実的な3D環境をナビゲートするために、具体的エージェントが必要である。
我々はHM3Dから900の未ラベルの3Dビルディングから大規模VLNデータセットを自動生成することを提案する。
実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 87.03299519917019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In vision-and-language navigation (VLN), an embodied agent is required to
navigate in realistic 3D environments following natural language instructions.
One major bottleneck for existing VLN approaches is the lack of sufficient
training data, resulting in unsatisfactory generalization to unseen
environments. While VLN data is typically collected manually, such an approach
is expensive and prevents scalability. In this work, we address the data
scarcity issue by proposing to automatically create a large-scale VLN dataset
from 900 unlabeled 3D buildings from HM3D. We generate a navigation graph for
each building and transfer object predictions from 2D to generate pseudo 3D
object labels by cross-view consistency. We then fine-tune a pretrained
language model using pseudo object labels as prompts to alleviate the
cross-modal gap in instruction generation. Our resulting HM3D-AutoVLN dataset
is an order of magnitude larger than existing VLN datasets in terms of
navigation environments and instructions. We experimentally demonstrate that
HM3D-AutoVLN significantly increases the generalization ability of resulting
VLN models. On the SPL metric, our approach improves over state of the art by
7.1% and 8.1% on the unseen validation splits of REVERIE and SOON datasets
respectively.
- Abstract(参考訳): 視覚言語ナビゲーション(vln)では、自然言語命令に従って現実的な3d環境をナビゲートするために具体化エージェントが必要である。
既存のVLNアプローチの大きなボトルネックは、十分なトレーニングデータがないことである。
VLNデータは一般的に手作業で収集されるが、そのようなアプローチは高価でスケーラビリティを損なう。
本研究では,HM3Dから900の未ラベルの3Dビルディングから,大規模VLNデータセットを自動生成することを提案する。
2dから建物毎にナビゲーショングラフを生成し、オブジェクト予測を転送し、クロスビュー一貫性により擬似3dオブジェクトラベルを生成する。
次に、擬似オブジェクトラベルを用いて事前訓練された言語モデルを微調整し、命令生成におけるモード間ギャップを軽減する。
得られたHM3D-AutoVLNデータセットは、ナビゲーション環境や命令の観点から、既存のVLNデータセットよりも桁違いに大きい。
実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
SPL測定では,REVERIEデータセットとSOONデータセットの未確認検証分割に対して,手法の状態を7.1%,8.1%改善する。
関連論文リスト
- 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment [44.00343134325925]
3D-VisTAは、3Dビジョンとテキストアライメントのための事前訓練されたトランスフォーマーである。
ScanScribeは、3D-VL事前トレーニングのための最初の大規模3Dシーンテキストペアデータセットである。
論文 参考訳(メタデータ) (2023-08-08T15:59:17Z) - UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文 参考訳(メタデータ) (2023-06-19T07:03:45Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [103.58388549764302]
本研究では,3次元オブジェクトの汎用言語を自動生成するトリオモーダル事前学習フレームワークを開発した。
3Dアノテーションを一切必要とせず、従って大規模なデータセットにスケーラブルである。
ModelNet40では、下流のゼロショット分類が大幅に改善されている。
現実世界のScanObjectNNベンチマークでは、91.5%の精度で、パラメータはわずか1.4万である。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding [40.68012530554327]
室内3Dシーン理解のための3DバックボーンであるSSTを導入する。
我々は,線形メモリの複雑さを伴うスパースボクセルの自己アテンションを効率的に行える3Dスウィントランスを,バックボーンネットワークとして設計する。
我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
論文 参考訳(メタデータ) (2023-04-14T02:49:08Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。