Fugu-MT 論文翻訳(概要): Learning from Unlabeled 3D Environments for Vision-and-Language Navigation

論文の概要: Learning from Unlabeled 3D Environments for Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2208.11781v1
Date: Wed, 24 Aug 2022 21:50:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-26 12:59:19.808593
Title: Learning from Unlabeled 3D Environments for Vision-and-Language Navigation
Title（参考訳）: 視覚・言語ナビゲーションのためのラベルなし3次元環境からの学習
Authors: Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev
Abstract要約: 視覚言語ナビゲーション(VLN)では、自然言語の指示に従って現実的な3D環境をナビゲートするために、具体的エージェントが必要である。我々はHM3Dから900の未ラベルの3Dビルディングから大規模VLNデータセットを自動生成することを提案する。実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
参考スコア（独自算出の注目度）: 87.03299519917019
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In vision-and-language navigation (VLN), an embodied agent is required to navigate in realistic 3D environments following natural language instructions. One major bottleneck for existing VLN approaches is the lack of sufficient training data, resulting in unsatisfactory generalization to unseen environments. While VLN data is typically collected manually, such an approach is expensive and prevents scalability. In this work, we address the data scarcity issue by proposing to automatically create a large-scale VLN dataset from 900 unlabeled 3D buildings from HM3D. We generate a navigation graph for each building and transfer object predictions from 2D to generate pseudo 3D object labels by cross-view consistency. We then fine-tune a pretrained language model using pseudo object labels as prompts to alleviate the cross-modal gap in instruction generation. Our resulting HM3D-AutoVLN dataset is an order of magnitude larger than existing VLN datasets in terms of navigation environments and instructions. We experimentally demonstrate that HM3D-AutoVLN significantly increases the generalization ability of resulting VLN models. On the SPL metric, our approach improves over state of the art by 7.1% and 8.1% on the unseen validation splits of REVERIE and SOON datasets respectively.
Abstract（参考訳）: 視覚言語ナビゲーション(vln)では、自然言語命令に従って現実的な3d環境をナビゲートするために具体化エージェントが必要である。既存のVLNアプローチの大きなボトルネックは、十分なトレーニングデータがないことである。 VLNデータは一般的に手作業で収集されるが、そのようなアプローチは高価でスケーラビリティを損なう。本研究では,HM3Dから900の未ラベルの3Dビルディングから,大規模VLNデータセットを自動生成することを提案する。 2dから建物毎にナビゲーショングラフを生成し、オブジェクト予測を転送し、クロスビュー一貫性により擬似3dオブジェクトラベルを生成する。次に、擬似オブジェクトラベルを用いて事前訓練された言語モデルを微調整し、命令生成におけるモード間ギャップを軽減する。得られたHM3D-AutoVLNデータセットは、ナビゲーション環境や命令の観点から、既存のVLNデータセットよりも桁違いに大きい。実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。 SPL測定では,REVERIEデータセットとSOONデータセットの未確認検証分割に対して,手法の状態を7.1%,8.1%改善する。

関連論文リスト

Zero-Shot 3D Visual Grounding from Vision-Language Models [10.81711535075112]
3Dビジュアルグラウンド(3DVG)は、自然言語記述を用いて、3Dシーンで対象物を見つけることを目的としている。 SeeGroundは、2Dビジョンランゲージモデル(VLM)を活用するゼロショット3DVGフレームワークで、3D特有のトレーニングの必要性を回避します。
論文参考訳（メタデータ） (2025-05-28T14:53:53Z)
Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation [61.21302433849139]
VLN(Vision-and-Language Navigation)は、生体エージェントが空間移動を利用して3D環境をナビゲートするコアタスクである。ナビゲーション動作予測において3D-VLMを学習するための視覚入力として,言語整列,一般化,階層的な3D表現を利用する動的階層化3D表現モデルDynam3Dを提案する。我々のDynam3Dは3Dインスタンスのオンラインエンコーディングとローカライズが可能であり、それを動的に更新することで、ナビゲーションのための大規模な探索と長期記憶機能を提供する。
論文参考訳（メタデータ） (2025-05-16T15:46:27Z)
IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes [10.139461308573336]
IRef-VLAは、11.5K以上のスキャンされた3D部屋からなる参照グラウンドタスクのための、世界で最大のデータセットである。我々は,ロバストでインタラクティブなナビゲーションシステムの開発を支援する3Dシーン理解のためのリソースの提供を目指している。
論文参考訳（メタデータ） (2025-03-20T16:16:10Z)
Open-Vocabulary High-Resolution 3D (OVHR3D) Data Segmentation and Annotation Framework [1.1280113914145702]
本研究の目的は,3次元セグメンテーションタスクのための包括的で効率的なフレームワークの設計と開発である。このフレームワークはGrounding DINOとSegment Any Modelを統合し、3Dメッシュによる2D画像レンダリングの強化によって強化される。
論文参考訳（メタデータ） (2024-12-09T07:39:39Z)
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning [55.339257446600634]
大規模命令追従データに基づいて訓練された強力な3DLLMであるRobin3Dを紹介する。我々は,344K の逆数サンプル,508K の逆数サンプル,および165K のベンチマーク・トレーニング・セットからなる100万の命令追従データを構築した。 Robin3Dは、広く使用されている5つのマルチモーダル学習ベンチマークにおいて、従来方法よりも一貫して優れています。
論文参考訳（メタデータ） (2024-09-30T21:55:38Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文参考訳（メタデータ） (2023-06-19T07:03:45Z)
Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding [40.68012530554327]
室内3Dシーン理解のための3DバックボーンであるSSTを導入する。我々は,線形メモリの複雑さを伴うスパースボクセルの自己アテンションを効率的に行える3Dスウィントランスを,バックボーンネットワークとして設計する。我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
論文参考訳（メタデータ） (2023-04-14T02:49:08Z)
Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文参考訳（メタデータ） (2020-11-29T12:56:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。