Fugu-MT 論文翻訳(概要): IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation

論文の概要: IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation

arxiv url: http://arxiv.org/abs/2403.19336v1
Date: Thu, 28 Mar 2024 11:52:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 16:33:46.138740
Title: IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation
Title（参考訳）: IVLMap: 消費者向けロボットナビゲーションのためのインスタンス対応ビジュアル言語グラウンド
Authors: Jiacui Huang, Hongtao Zhang, Mingbo Zhao, Zhou Wu,
Abstract要約: VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
参考スコア（独自算出の注目度）: 10.006058028927907
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-and-Language Navigation (VLN) is a challenging task that requires a robot to navigate in photo-realistic environments with human natural language promptings. Recent studies aim to handle this task by constructing the semantic spatial map representation of the environment, and then leveraging the strong ability of reasoning in large language models for generalizing code for guiding the robot navigation. However, these methods face limitations in instance-level and attribute-level navigation tasks as they cannot distinguish different instances of the same object. To address this challenge, we propose a new method, namely, Instance-aware Visual Language Map (IVLMap), to empower the robot with instance-level and attribute-level semantic mapping, where it is autonomously constructed by fusing the RGBD video data collected from the robot agent with special-designed natural language map indexing in the bird's-in-eye view. Such indexing is instance-level and attribute-level. In particular, when integrated with a large language model, IVLMap demonstrates the capability to i) transform natural language into navigation targets with instance and attribute information, enabling precise localization, and ii) accomplish zero-shot end-to-end navigation tasks based on natural language commands. Extensive navigation experiments are conducted. Simulation results illustrate that our method can achieve an average improvement of 14.4\% in navigation accuracy. Code and demo are released at https://ivlmap.github.io/.
Abstract（参考訳）: VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境をナビゲートするロボットを必要とする課題である。近年の研究では、環境の意味空間地図表現を構築し、大規模言語モデルにおける推論能力を活用して、ロボットナビゲーションを導くコードの一般化を図っている。しかし、これらのメソッドは、同一オブジェクトの異なるインスタンスを区別できないため、インスタンスレベルおよび属性レベルのナビゲーションタスクの制限に直面します。そこで我々は,ロボットエージェントから収集したRGBDビデオデータを,鳥の目視で特別に設計された自然言語マップインデックスに融合させて,自律的に構築する,インスタンスレベルの属性レベルのセマンティックマップ(IVLMap)を提案する。このようなインデックス化はインスタンスレベルと属性レベルである。特に、大きな言語モデルと統合した場合、IVLMapは機能を示す。一自然言語を例と属性情報で航法目標に転換し、正確な位置付けを可能にすること。二自然言語コマンドに基づいて、ゼロショットのエンドツーエンドナビゲーションタスクを達成すること。広範囲な航法実験が実施されている。シミュレーションの結果,ナビゲーション精度が平均14.4\%向上できることが示唆された。コードとデモはhttps://ivlmap.github.io/で公開されている。

関連論文リスト

LangNavBench: Evaluation of Natural Language Understanding in Semantic Navigation [18.951580080771432]
LangNavは、異なるレベルの詳細で記述されたオブジェクトを見つけるエージェントの能力をテストするために特別に作成された、オープンセットのデータセットである。 LangNavBenchを使えば、属性、空間的およびリレーショナルなキュー、およびカテゴリ階層の処理に関するモデルを体系的に比較することができます。 MLFMはクエリ可能な多層セマンティックマップを構築する方法である。
論文参考訳（メタデータ） (2025-07-09T21:46:43Z)
LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文参考訳（メタデータ） (2023-10-11T20:52:30Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
Learning Navigational Visual Representations with Semantic Map Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。 Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文参考訳（メタデータ） (2023-07-23T14:01:05Z)
Audio Visual Language Maps for Robot Navigation [30.33041779258644]
音声, 視覚, 言語情報からのクロスモーダル情報を格納するための3次元空間地図表現を統一したAVLMap(Audio-Visual-Language Map)を提案する。 AVLMapsは、インターネット規模で事前訓練されたマルチモーダル基礎モデルのオープン語彙機能を統合する。ナビゲーションの文脈において、AVLMapsは、例えば、テキスト記述、画像、ランドマークの音声スニペットなどのマルチモーダルクエリに基づいて、ロボットシステムが地図内の目標をインデックスできることを示す。
論文参考訳（メタデータ） (2023-03-13T23:17:51Z)
Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文参考訳（メタデータ） (2022-10-14T04:23:27Z)
Visual Language Maps for Robot Navigation [30.33041779258644]
ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータに基づいて事前訓練された市販の視覚言語モデルを用いて行うことができる。実世界の3次元再構成により,事前学習した視覚言語特徴を直接融合する空間地図表現 VLMaps を提案する。
論文参考訳（メタデータ） (2022-10-11T18:13:20Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文参考訳（メタデータ） (2020-11-15T23:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。