論文の概要: E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models
- arxiv url: http://arxiv.org/abs/2409.10027v1
- Date: Mon, 16 Sep 2024 06:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:30:58.874672
- Title: E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models
- Title(参考訳): E2Map:言語モデルを用いた自己反射型ロボットナビゲーションのための経験・感情マップ
- Authors: Chan Kim, Keonwoo Kim, Mintaek Oh, Hanbi Baek, Jiyang Lee, Donghwi Jung, Soojin Woo, Younkyung Woo, John Tucker, Roya Firoozi, Seung-Woo Seo, Mac Schwager, Seong-Woo Kim,
- Abstract要約: 大規模言語モデル(LLM)は、言語命令を実行するためのエンボディエージェントを誘導する大きな可能性を示している。
既存の手法は主に静的環境向けに設計されており、エージェント自身の経験を生かして初期計画を洗練しない。
本研究は,LLMの知識とエージェントの現実世界の経験を統合した経験・感情マップ(E2Map)を紹介する。
- 参考スコア(独自算出の注目度): 16.50787220881633
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have shown significant potential in guiding embodied agents to execute language instructions across a range of tasks, including robotic manipulation and navigation. However, existing methods are primarily designed for static environments and do not leverage the agent's own experiences to refine its initial plans. Given that real-world environments are inherently stochastic, initial plans based solely on LLMs' general knowledge may fail to achieve their objectives, unlike in static scenarios. To address this limitation, this study introduces the Experience-and-Emotion Map (E2Map), which integrates not only LLM knowledge but also the agent's real-world experiences, drawing inspiration from human emotional responses. The proposed methodology enables one-shot behavior adjustments by updating the E2Map based on the agent's experiences. Our evaluation in stochastic navigation environments, including both simulations and real-world scenarios, demonstrates that the proposed method significantly enhances performance in stochastic environments compared to existing LLM-based approaches. Code and supplementary materials are available at https://e2map.github.io/.
- Abstract(参考訳): 大型言語モデル (LLM) は、ロボット操作やナビゲーションを含む様々なタスクで言語命令を実行するためのエンボディエージェントを誘導する大きな可能性を示している。
しかし、既存の手法は主に静的環境向けに設計されており、エージェント自身の経験を生かして初期計画を洗練しない。
現実の環境は本質的に確率的であるため、LLMの一般的な知識のみに基づく初期計画は、静的シナリオとは異なり、目的達成に失敗する可能性がある。
この制限に対処するため、本研究では、LLM知識だけでなく、エージェントの現実世界の経験も統合し、人間の感情反応からインスピレーションを得るエクスペリエンス・アンド・感情マップ(E2Map)を紹介した。
提案手法はエージェントの経験に基づいてE2Mapを更新することでワンショット動作調整を可能にする。
シミュレーションと実世界のシナリオを含む確率的ナビゲーション環境における評価は,提案手法が従来のLCM手法と比較して確率的環境の性能を著しく向上することを示した。
コードと補足資料はhttps://e2map.github.io/.com/で入手できる。
関連論文リスト
- Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Multi-Object Navigation in real environments using hybrid policies [18.52681391843433]
本稿では,問題を2つの異なるスキルに分解するハイブリッドナビゲーション手法を提案する。
シミュレーションと実環境の両方において、エンドツーエンドの手法と比較して、このアプローチの利点を示す。
論文 参考訳(メタデータ) (2024-01-24T20:41:25Z) - Vision and Language Navigation in the Real World via Online Visual
Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。
実世界のVLN課題に対処する新しい枠組みを提案する。
未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文 参考訳(メタデータ) (2023-10-16T20:44:09Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。