論文の概要: Think, Act, and Ask: Open-World Interactive Personalized Robot
Navigation
- arxiv url: http://arxiv.org/abs/2310.07968v1
- Date: Thu, 12 Oct 2023 01:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 11:32:59.350279
- Title: Think, Act, and Ask: Open-World Interactive Personalized Robot
Navigation
- Title(参考訳): Think, Act, and Ask: オープンワールドの対話型パーソナライズされたロボットナビゲーション
- Authors: Yinpei Dai, Run Peng, Sikai Li, Joyce Chai
- Abstract要約: Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。
我々は,Zero-shot Interactive Personalized Object Navigation (ZipON)を紹介した。
我々は,Large Language Models (LLMs) を用いて,知覚,ナビゲーション,コミュニケーションの異なるモジュールを操作するためのシーケンシャルな決定を行う,Open-woRld Interactive persOnalized Navigation (ORION) と呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.87702228339633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-Shot Object Navigation (ZSON) enables agents to navigate towards
open-vocabulary objects in unknown environments. The existing works of ZSON
mainly focus on following individual instructions to find generic object
classes, neglecting the utilization of natural language interaction and the
complexities of identifying user-specific objects. To address these
limitations, we introduce Zero-shot Interactive Personalized Object Navigation
(ZIPON), where robots need to navigate to personalized goal objects while
engaging in conversations with users. To solve ZIPON, we propose a new
framework termed Open-woRld Interactive persOnalized Navigation (ORION), which
uses Large Language Models (LLMs) to make sequential decisions to manipulate
different modules for perception, navigation and communication. Experimental
results show that the performance of interactive agents that can leverage user
feedback exhibits significant improvement. However, obtaining a good balance
between task completion and the efficiency of navigation and interaction
remains challenging for all methods. We further provide more findings on the
impact of diverse user feedback forms on the agents' performance.
- Abstract(参考訳): ゼロショットオブジェクトナビゲーション(zson)は、エージェントが未知の環境でオープンボキャブラリオブジェクトに向かってナビゲートできるようにする。
ZSONの既存の研究は主に、汎用オブジェクトクラスを見つけるための個々の命令に従うことに焦点を当て、自然言語の相互作用の利用やユーザ固有のオブジェクトを特定する複雑さを無視している。
これらの制限に対処するために,ロボットがユーザと対話しながらパーソナライズされた目標オブジェクトにナビゲートする必要がある,ゼロショット対話型パーソナライズドオブジェクトナビゲーション(zipon)を導入する。
zipon を解くために,大規模言語モデル (llm) を用いて知覚・ナビゲーション・コミュニケーションのためのモジュールを逐次的に操作する open-world interactive personal navigation (orion) という新しいフレームワークを提案する。
実験の結果,ユーザフィードバックを活用できる対話型エージェントの性能は有意な改善を示した。
しかし,タスク完了とナビゲーションとインタラクションの効率のバランスが良好であることは,すべての方法において困難である。
さらに,多様なユーザフィードバックフォームがエージェントのパフォーマンスに与える影響について,さらなる知見を提供する。
関連論文リスト
- Zero-shot Object Navigation with Vision-Language Models Reasoning [35.28869151048087]
本稿では,L-ZSONのためのツリー・オブ・ソート・ネットワーク(VLTNet)を用いたビジョン言語モデルを提案する。
VLTNetは、視覚言語モデル理解、セマンティックマッピング、ツリーオブ思考推論と探索、ゴール識別の4つの主要なモジュールから構成されている。
ToT推論を用いたナビゲーションは、従来のフロンティア選択と比較して、必要であればマルチパス推論プロセスとバックトラックを行う。
論文 参考訳(メタデータ) (2024-10-24T09:24:07Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Human-Object Interaction from Human-Level Instructions [16.70362477046958]
対象動作,全体動作,指動作を人体レベルで同時に合成できる最初の完全システムを提案する。
実験では,高レベルプランナが多目的物体の現実的相互作用を合成する上で,高レベルな目標レイアウトの生成に有効であることを実証した。
論文 参考訳(メタデータ) (2024-06-25T17:46:28Z) - I2EDL: Interactive Instruction Error Detection and Localization [65.25839671641218]
連続環境(IVLN-CE)における対話型VLNの新たな課題を提案する。
これにより、VLN-CEナビゲーション中にエージェントがユーザと対話し、命令エラーに関する疑念を検証できる。
我々は、事前学習したモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで、命令中のそれらをピンポイントする。
論文 参考訳(メタデータ) (2024-06-07T16:52:57Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。