論文の概要: Self-supervised 3D Semantic Representation Learning for
Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2201.10788v1
- Date: Wed, 26 Jan 2022 07:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 14:09:36.899248
- Title: Self-supervised 3D Semantic Representation Learning for
Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための自己教師付き3次元意味表現学習
- Authors: Sinan Tan, Mengmeng Ge, Di Guo, Huaping Liu and Fuchun Sun
- Abstract要約: ボクセルレベルの3Dセマンティック再構築を3Dセマンティック表現にエンコードする新しいトレーニングフレームワークを開発した。
LSTMに基づくナビゲーションモデルを構築し,提案した3Dセマンティック表現とBERT言語特徴を視覚言語ペア上で学習する。
実験の結果、提案手法は、R2Rデータセットの未確認分割とテスト未確認の検証において、成功率68%と66%を達成することがわかった。
- 参考スコア(独自算出の注目度): 30.429893959096752
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the Vision-and-Language Navigation task, the embodied agent follows
linguistic instructions and navigates to a specific goal. It is important in
many practical scenarios and has attracted extensive attention from both
computer vision and robotics communities. However, most existing works only use
RGB images but neglect the 3D semantic information of the scene. To this end,
we develop a novel self-supervised training framework to encode the voxel-level
3D semantic reconstruction into a 3D semantic representation. Specifically, a
region query task is designed as the pretext task, which predicts the presence
or absence of objects of a particular class in a specific 3D region. Then, we
construct an LSTM-based navigation model and train it with the proposed 3D
semantic representations and BERT language features on vision-language pairs.
Experiments show that the proposed approach achieves success rates of 68% and
66% on the validation unseen and test unseen splits of the R2R dataset
respectively, which are superior to most of RGB-based methods utilizing
vision-language transformers.
- Abstract(参考訳): 視覚言語ナビゲーションタスクでは、具体化エージェントは言語指示に従い、特定の目標にナビゲートする。
多くの実践的なシナリオにおいて重要であり、コンピュータビジョンとロボティクスのコミュニティから広く注目を集めている。
しかし、既存の作品のほとんどはRGB画像のみを使用しており、シーンの3D意味情報を無視している。
この目的のために,voxelレベル3dセマンティクス再構成を3dセマンティクス表現にエンコードする,新しい自己教師付き学習フレームワークを開発した。
具体的には、特定の3D領域における特定のクラスのオブジェクトの有無を予測するプリテキストタスクとして、リージョンクエリタスクを設計する。
そして,LSTMに基づくナビゲーションモデルを構築し,視覚言語対の3次元意味表現とBERT言語機能を用いて学習する。
実験の結果,提案手法は,R2Rデータセットの検証未確認とテスト未確認の分割に対して,68%と66%の成功率を達成した。
関連論文リスト
- RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Vision-Language Pre-training with Object Contrastive Learning for 3D
Scene Understanding [47.48443919164377]
3次元視覚言語下流タスクを柔軟に伝達するために,視覚言語事前学習フレームワークを提案する。
本稿では,セマンティック3次元シーン理解における3つの共通課題について検討し,事前学習モデルに対する重要な洞察を導出する。
実験は3つの3次元視覚言語タスクにおけるフレームワークの優れた性能を検証する。
論文 参考訳(メタデータ) (2023-05-18T05:25:40Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。