Fugu-MT 論文翻訳(概要): Self-supervised 3D Semantic Representation Learning for Vision-and-Language Navigation

論文の概要: Self-supervised 3D Semantic Representation Learning for Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2201.10788v1
Date: Wed, 26 Jan 2022 07:43:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-27 14:09:36.899248
Title: Self-supervised 3D Semantic Representation Learning for Vision-and-Language Navigation
Title（参考訳）: 視覚・言語ナビゲーションのための自己教師付き3次元意味表現学習
Authors: Sinan Tan, Mengmeng Ge, Di Guo, Huaping Liu and Fuchun Sun
Abstract要約: ボクセルレベルの3Dセマンティック再構築を3Dセマンティック表現にエンコードする新しいトレーニングフレームワークを開発した。 LSTMに基づくナビゲーションモデルを構築し,提案した3Dセマンティック表現とBERT言語特徴を視覚言語ペア上で学習する。実験の結果、提案手法は、R2Rデータセットの未確認分割とテスト未確認の検証において、成功率68%と66%を達成することがわかった。
参考スコア（独自算出の注目度）: 30.429893959096752
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In the Vision-and-Language Navigation task, the embodied agent follows linguistic instructions and navigates to a specific goal. It is important in many practical scenarios and has attracted extensive attention from both computer vision and robotics communities. However, most existing works only use RGB images but neglect the 3D semantic information of the scene. To this end, we develop a novel self-supervised training framework to encode the voxel-level 3D semantic reconstruction into a 3D semantic representation. Specifically, a region query task is designed as the pretext task, which predicts the presence or absence of objects of a particular class in a specific 3D region. Then, we construct an LSTM-based navigation model and train it with the proposed 3D semantic representations and BERT language features on vision-language pairs. Experiments show that the proposed approach achieves success rates of 68% and 66% on the validation unseen and test unseen splits of the R2R dataset respectively, which are superior to most of RGB-based methods utilizing vision-language transformers.
Abstract（参考訳）: 視覚言語ナビゲーションタスクでは、具体化エージェントは言語指示に従い、特定の目標にナビゲートする。多くの実践的なシナリオにおいて重要であり、コンピュータビジョンとロボティクスのコミュニティから広く注目を集めている。しかし、既存の作品のほとんどはRGB画像のみを使用しており、シーンの3D意味情報を無視している。この目的のために,voxelレベル3dセマンティクス再構成を3dセマンティクス表現にエンコードする,新しい自己教師付き学習フレームワークを開発した。具体的には、特定の3D領域における特定のクラスのオブジェクトの有無を予測するプリテキストタスクとして、リージョンクエリタスクを設計する。そして,LSTMに基づくナビゲーションモデルを構築し,視覚言語対の3次元意味表現とBERT言語機能を用いて学習する。実験の結果,提案手法は,R2Rデータセットの検証未確認とテスト未確認の分割に対して,68%と66%の成功率を達成した。

関連論文リスト

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文参考訳（メタデータ） (2025-07-05T14:15:52Z)
DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding [44.81427860963744]
この分野での基本課題はエゴ中心の3次元視覚グラウンド(英語版)であり、エージェントは言葉による記述に基づいて現実世界の3次元空間内の対象物を特定する。視覚的意味論とテキスト的意味論を両立させる新しいアプローチであるDenseGroundingを提案する。視覚的特徴として,細粒度のグローバルなシーンの特徴を捉えることで,密接なセマンティックなセマンティックなセマンティック・エンハンサーを導入する。テキスト記述のための言語セマンティックエンハンサー(Language Semantic Enhancer)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:49:06Z)
VoxRep: Enhancing 3D Spatial Understanding in 2D Vision-Language Models via Voxel Representation [0.0]
ボクセルグリッドは3次元空間の構造的表現を提供するが、高レベルの意味を抽出することは依然として困難である。本稿では,VLM(Vision-Language Model)を用いて,ボクセルデータから"voxel semantics"オブジェクトの識別,色,位置を抽出する手法を提案する。
論文参考訳（メタデータ） (2025-03-27T07:07:11Z)
ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding [9.289977174410824]
3Dビジュアルグラウンドティングは、自然言語テキストによって参照される3Dシーンでエンティティをローカライズする。多様な言語パターンに対して視覚的接地手法を評価するための診断データセットである3D (ViGiL3D) の視覚的接地について紹介する。
論文参考訳（メタデータ） (2025-01-02T17:20:41Z)
g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文参考訳（メタデータ） (2024-11-26T01:54:52Z)
Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文参考訳（メタデータ） (2024-07-07T04:50:04Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文参考訳（メタデータ） (2023-11-30T11:50:07Z)
Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding [47.48443919164377]
3次元視覚言語下流タスクを柔軟に伝達するために,視覚言語事前学習フレームワークを提案する。本稿では,セマンティック3次元シーン理解における3つの共通課題について検討し,事前学習モデルに対する重要な洞察を導出する。実験は3つの3次元視覚言語タスクにおけるフレームワークの優れた性能を検証する。
論文参考訳（メタデータ） (2023-05-18T05:25:40Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。