論文の概要: Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation
- arxiv url: http://arxiv.org/abs/2210.07506v1
- Date: Fri, 14 Oct 2022 04:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:52:36.164823
- Title: Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための弱教師付きマルチグラニュラリティマップ学習
- Authors: Peihao Chen, Dongyu Ji, Kunyang Lin, Runhao Zeng, Thomas H. Li,
Mingkui Tan, Chuang Gan
- Abstract要約: 我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
- 参考スコア(独自算出の注目度): 87.52136927091712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address a practical yet challenging problem of training robot agents to
navigate in an environment following a path described by some language
instructions. The instructions often contain descriptions of objects in the
environment. To achieve accurate and efficient navigation, it is critical to
build a map that accurately represents both spatial location and the semantic
information of the environment objects. However, enabling a robot to build a
map that well represents the environment is extremely challenging as the
environment often involves diverse objects with various attributes. In this
paper, we propose a multi-granularity map, which contains both object
fine-grained details (e.g., color, texture) and semantic classes, to represent
objects more comprehensively. Moreover, we propose a weakly-supervised
auxiliary task, which requires the agent to localize instruction-relevant
objects on the map. Through this task, the agent not only learns to localize
the instruction-relevant objects for navigation but also is encouraged to learn
a better map representation that reveals object information. We then feed the
learned map and instruction to a waypoint predictor to determine the next
navigation goal. Experimental results show our method outperforms the
state-of-the-art by 4.0% and 4.6% w.r.t. success rate both in seen and unseen
environments, respectively on VLN-CE dataset. Code is available at
https://github.com/PeihaoChen/WS-MGMap.
- Abstract(参考訳): 我々は,ロボットエージェントが言語指導によって記述された経路をたどった環境をナビゲートするよう訓練する実践的かつ困難な問題に対処する。
インストラクションは、しばしば環境内のオブジェクトの記述を含む。
正確なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報を正確に表現した地図を構築することが重要である。
しかし,ロボットが環境をよく表現する地図を構築できるのは極めて困難であり,様々な属性を持つ多様な物体を伴っていることが多い。
本稿では,オブジェクトをより包括的に表現するために,細粒度の詳細(色,テクスチャなど)と意味クラスの両方を含む多粒度マップを提案する。
さらに,エージェントが地図上の命令関連オブジェクトをローカライズする必要がある弱教師付き補助タスクを提案する。
このタスクを通じて、エージェントはナビゲーションのための命令関連オブジェクトのローカライズを学ぶだけでなく、オブジェクト情報を示すより良いマップ表現を学ぶことを奨励される。
次に学習した地図と命令をウェイポイント予測器に供給し、次のナビゲーション目標を決定する。
実験結果から,VLN-CEデータセットを用いて,本手法の精度を4.0%,4.6%向上させた。
コードはhttps://github.com/PeihaoChen/WS-MGMapで入手できる。
関連論文リスト
- IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation [10.006058028927907]
VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。
近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。
本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
論文 参考訳(メタデータ) (2024-03-28T11:52:42Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Structured Exploration Through Instruction Enhancement for Object
Navigation [0.0]
本稿では,オブジェクトナビゲーションのための階層型学習手法を提案する。
トップレベルはハイレベルなプランニングが可能で、フロアプランレベルでメモリを構築することができる。
本研究では,本手法が動的家庭環境に与える影響を実証する。
論文 参考訳(メタデータ) (2022-11-15T19:39:22Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z) - Extending Maps with Semantic and Contextual Object Information for Robot
Navigation: a Learning-Based Framework using Visual and Depth Cues [12.984393386954219]
本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。
オブジェクトレベルの情報を持つ環境の地図表現を拡張化するための完全なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T15:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。