論文の概要: Discuss Before Moving: Visual Language Navigation via Multi-expert
Discussions
- arxiv url: http://arxiv.org/abs/2309.11382v1
- Date: Wed, 20 Sep 2023 15:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 12:38:08.739453
- Title: Discuss Before Moving: Visual Language Navigation via Multi-expert
Discussions
- Title(参考訳): 移行前の議論:マルチエキスパートによるビジュアル言語ナビゲーション
- Authors: Yuxing Long, Xiaoqi Li, Wenzhe Cai, Hao Dong
- Abstract要約: ゼロショットビジュアル言語ナビゲーションフレームワークを新たに導入する。
このフレームワーク内では、異なる能力を持つ大きなモデルがドメインエキスパートとして提供されます。
提案手法は, 先行するゼロショットVLNモデルよりも, 全指標に対して大きな差があることが示される。
- 参考スコア(独自算出の注目度): 5.793968539256984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual language navigation (VLN) is an embodied task demanding a wide range
of skills encompassing understanding, perception, and planning. For such a
multifaceted challenge, previous VLN methods totally rely on one model's own
thinking to make predictions within one round. However, existing models, even
the most advanced large language model GPT4, still struggle with dealing with
multiple tasks by single-round self-thinking. In this work, drawing inspiration
from the expert consultation meeting, we introduce a novel zero-shot VLN
framework. Within this framework, large models possessing distinct abilities
are served as domain experts. Our proposed navigation agent, namely DiscussNav,
can actively discuss with these experts to collect essential information before
moving at every step. These discussions cover critical navigation subtasks like
instruction understanding, environment perception, and completion estimation.
Through comprehensive experiments, we demonstrate that discussions with domain
experts can effectively facilitate navigation by perceiving
instruction-relevant information, correcting inadvertent errors, and sifting
through in-consistent movement decisions. The performances on the
representative VLN task R2R show that our method surpasses the leading
zero-shot VLN model by a large margin on all metrics. Additionally, real-robot
experiments display the obvious advantages of our method over single-round
self-thinking.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は、理解、知覚、計画を含む幅広いスキルを必要とする具体的タスクである。
このような多面的課題に対して、従来のVLN手法は1ラウンド以内に予測を行うというモデル独自の考え方に完全に依存している。
しかし、既存のモデルは、最も先進的な大規模言語モデルであるGPT4でさえ、シングルラウンドの自己思考によって複数のタスクを扱うことに苦戦している。
本稿では,専門家協議会からインスピレーションを得て,新たなゼロショットVLNフレームワークを提案する。
このフレームワークでは、異なる能力を持つ大きなモデルはドメインエキスパートとして機能します。
提案するナビゲーションエージェントである discussnav は,各ステップに進む前に,これらの専門家と積極的に議論し,必要な情報を収集することができる。
これらの議論は、指示理解、環境認識、完了推定などの重要なナビゲーションサブタスクをカバーしている。
包括的実験を通じて,命令関連情報を認識し,不注意な誤りを訂正し,一貫性のない動作決定をすすめることで,ドメインエキスパートとの対話を効果的に促進できることを実証する。
代表的VLNタスクR2Rの性能は,本手法が先行するゼロショットVLNモデルを上回っていることを示す。
さらに,実ロボット実験では,単回自己思考よりも明らかな利点を示す。
関連論文リスト
- Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。
人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。
私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T11:18:41Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。
スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。
我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-12-04T16:32:51Z) - Evaluating Explanation Methods for Vision-and-Language Navigation [26.607847422870464]
逐次決定設定における段階的テキスト説明を段階的に評価するための消去に基づく評価パイプラインを提案する。
2つの一般的なVLNデータセットに対する2つの代表的VLNモデルのいくつかの説明方法を評価する。
論文 参考訳(メタデータ) (2023-10-10T14:22:56Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。