論文の概要: MO-VLN: A Multi-Task Benchmark for Open-set Zero-Shot
Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2306.10322v2
- Date: Tue, 26 Sep 2023 05:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 17:35:37.637463
- Title: MO-VLN: A Multi-Task Benchmark for Open-set Zero-Shot
Vision-and-Language Navigation
- Title(参考訳): MO-VLN: オープンセットゼロショットビジョン・ランゲージナビゲーションのためのマルチタスクベンチマーク
- Authors: Xiwen Liang, Liang Ma, Shanshan Guo, Jianhua Han, Hang Xu, Shikui Ma,
Xiaodan Liang
- Abstract要約: マルチタスク設定におけるエージェントの有効性と一般化の検証を目的としたMO-VLNというベンチマークを提案する。
より現実的な照明と細部を含むUnreal Engine 5を用いて,現実的なシナリオでレンダリングされた3Dシミュレータを開発した。
近年の大規模言語モデル(ChatGPT, Vicunaなど)の成功に触発されて,人間のアノテーションを使わずに多種多様な命令型の高品質なデータを構築した。
- 参考スコア(独自算出の注目度): 77.4900881933259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a natural language, a general robot has to comprehend the instruction
and find the target object or location based on visual observations even in
unexplored environments. Most agents rely on massive diverse training data to
achieve better generalization, which requires expensive labor. These agents
often focus on common objects and fewer tasks, thus are not intelligent enough
to handle different types of instructions. To facilitate research in open-set
vision-and-language navigation, we propose a benchmark named MO-VLN, aiming at
testing the effectiveness and generalization of the agent in the multi-task
setting. First, we develop a 3D simulator rendered by realistic scenarios using
Unreal Engine 5, containing more realistic lights and details. The simulator
contains three scenes, i.e., cafe, restaurant, and nursing house, of high value
in the industry. Besides, our simulator involves multiple uncommon objects,
such as takeaway cup and medical adhesive tape, which are more complicated
compared with existing environments. Inspired by the recent success of large
language models (e.g., ChatGPT, Vicuna), we construct diverse high-quality data
of instruction type without human annotation. Our benchmark MO-VLN provides
four tasks: 1) goal-conditioned navigation given a specific object category
(e.g., "fork"); 2) goal-conditioned navigation given simple instructions (e.g.,
"Search for and move towards a tennis ball"); 3) step-by-step instruction
following; 4) finding abstract object based on high-level instruction (e.g., "I
am thirsty").
- Abstract(参考訳): 自然言語が与えられた場合、一般的なロボットは指示を理解し、探索されていない環境でも視覚観察に基づいて対象物や位置を見つける必要がある。
ほとんどのエージェントは、高度な一般化を達成するために、膨大な多様なトレーニングデータに依存している。
これらのエージェントは、しばしば共通のオブジェクトと少ないタスクに焦点を当てるため、異なる種類の命令を扱うのに十分な知性を持たない。
オープンセット視覚・言語ナビゲーションの研究を容易にするために,マルチタスク設定におけるエージェントの有効性と一般化の検証を目的としたMO-VLNというベンチマークを提案する。
まず,よりリアルな照明とディテールを備えたunreal engine 5を用いて,現実的なシナリオによる3次元シミュレータを開発した。
シミュレーターには、カフェ、レストラン、介護施設の3つのシーンがあり、業界で高い価値がある。
また,本シミュレータは,既存の環境に比べて複雑である,テイクウェイカップや医療用粘着テープなど,多種多様な不定期な物体を包含する。
近年の大規模言語モデル(chatgpt,vicunaなど)の成功に触発されて,人間のアノテーションを使わずに多彩な高品質な命令型データを構築した。
われわれのベンチマークMO-VLNは4つのタスクを提供している。
1) 特定の対象カテゴリー(例えば「フォーク」)が与えられた目標条件付きナビゲーション
2)簡単な指示が与えられた目標条件付きナビゲーション(例えば「テニスボールの探索と移動」)
3) ステップバイステップの指示
4)高レベルの命令に基づく抽象オブジェクト("I am thirsty"など)の発見。
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Vision and Language Navigation in the Real World via Online Visual
Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。
実世界のVLN課題に対処する新しい枠組みを提案する。
未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文 参考訳(メタデータ) (2023-10-16T20:44:09Z) - Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data [26.004807291215258]
言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。
基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-05-30T14:40:38Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Towards self-attention based visual navigation in the real world [0.0]
視覚誘導ナビゲーションでは、タスク指向の意思決定を知らせるために複雑な視覚情報を処理する必要がある。
シミュレーションで訓練された深層強化学習エージェントは、現実世界に配備された時に満足のいく結果を示すことが多い。
これは、4000以下のパラメータを使って3Dアクション空間をナビゲートする訓練に成功した、自己注意型エージェントの最初のデモンストレーションである。
論文 参考訳(メタデータ) (2022-09-15T04:51:42Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Learning Synthetic to Real Transfer for Localization and Navigational
Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。
この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。
ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文 参考訳(メタデータ) (2020-11-20T08:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。