論文の概要: March in Chat: Interactive Prompting for Remote Embodied Referring
Expression
- arxiv url: http://arxiv.org/abs/2308.10141v1
- Date: Sun, 20 Aug 2023 03:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:39:11.197638
- Title: March in Chat: Interactive Prompting for Remote Embodied Referring
Expression
- Title(参考訳): March in Chat: リモート・エボダイド参照表現のためのインタラクティブ・プロンプティング
- Authors: Yanyuan Qiao, Yuankai Qi, Zheng Yu, Jing Liu, Qi Wu
- Abstract要約: 本稿では,新たに提案されたRoom-and-Object Aware Scene Perceiver (ROASP) に基づいて,LLMとリアルタイムで対話し,動的に計画を行うことができる3-in-Chat(MiC)モデルを提案する。
我々のMiCモデルは、REVERIEベンチマークにおいて、SPLとRGSPLの指標により、これまでの最先端よりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 33.64407469423714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many Vision-and-Language Navigation (VLN) tasks have been proposed in recent
years, from room-based to object-based and indoor to outdoor. The REVERIE
(Remote Embodied Referring Expression) is interesting since it only provides
high-level instructions to the agent, which are closer to human commands in
practice. Nevertheless, this poses more challenges than other VLN tasks since
it requires agents to infer a navigation plan only based on a short
instruction. Large Language Models (LLMs) show great potential in robot action
planning by providing proper prompts. Still, this strategy has not been
explored under the REVERIE settings. There are several new challenges. For
example, the LLM should be environment-aware so that the navigation plan can be
adjusted based on the current visual observation. Moreover, the LLM planned
actions should be adaptable to the much larger and more complex REVERIE
environment. This paper proposes a March-in-Chat (MiC) model that can talk to
the LLM on the fly and plan dynamically based on a newly proposed
Room-and-Object Aware Scene Perceiver (ROASP). Our MiC model outperforms the
previous state-of-the-art by large margins by SPL and RGSPL metrics on the
REVERIE benchmark.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)タスクは、ルームベースからオブジェクトベース、屋内、屋外まで、近年提案されている。
REVERIE(Remote Embodied Referring Expression)は、実際に人間の命令に近いエージェントに高レベルな命令のみを提供するため、興味深い。
しかしながら、これは他のVLNタスクよりも多くの課題を引き起こす。
大規模言語モデル(LLM)は適切なプロンプトを提供することでロボットの行動計画に大きな可能性を示す。
しかし、この戦略はREVERIE設定下では検討されていない。
新しい課題がいくつかある。
例えば、現在の視覚観察に基づいてナビゲーション計画を調整できるように、llmは環境対応でなければならない。
さらに、LSMの計画されたアクションは、より大きくより複雑なREVERIE環境に適応するべきである。
本稿では,新たに提案されたRoom-and-Object Aware Scene Perceiver (ROASP) に基づいて,LLMとリアルタイムで対話し,動的に計画を行うことができる3-in-Chat(MiC)モデルを提案する。
私たちのmicモデルはreverieベンチマークのsplとrgsplの指標で、これまでの最先端を上回っています。
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - Ground Manipulator Primitive Tasks to Executable Actions using Large
Language Models [13.827349677538352]
大規模言語モデル(LLM)を用いた低レベル動作ロボットのためのマニピュレータ・プリミティブ・タスクを基礎とする新しい手法を提案する。
このようにして、LLMはハイブリッド制御のための位置/力のセットポイントを生成することができる。
論文 参考訳(メタデータ) (2023-08-13T16:52:36Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers [20.857692296678632]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Open-vocabulary Queryable Scene Representations for Real World Planning [56.175724306976505]
大規模言語モデル(LLM)は、ヒューマンインストラクションからタスクプランニングの新しい機能を解放した。
しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。
我々は,この問題を解決するために,オープンな語彙とクエリ可能なシーン表現であるNLMapを開発した。
論文 参考訳(メタデータ) (2022-09-20T17:29:56Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。