Fugu-MT 論文翻訳(概要): Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation

論文の概要: Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation

arxiv url: http://arxiv.org/abs/2310.07968v3
Date: Tue, 19 Mar 2024 01:32:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 00:30:47.840348
Title: Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation
Title（参考訳）: Think, Act, and Ask: オープンワールドの対話型パーソナライズされたロボットナビゲーション
Authors: Yinpei Dai, Run Peng, Sikai Li, Joyce Chai,
Abstract要約: Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。我々は,Zero-shot Interactive Personalized Object Navigation (ZipON)を紹介した。我々は,Large Language Models (LLMs) を用いて,知覚,ナビゲーション,コミュニケーションの異なるモジュールを操作するためのシーケンシャルな決定を行う,Open-woRld Interactive persOnalized Navigation (ORION) と呼ばれる新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 17.279875204729553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-Shot Object Navigation (ZSON) enables agents to navigate towards open-vocabulary objects in unknown environments. The existing works of ZSON mainly focus on following individual instructions to find generic object classes, neglecting the utilization of natural language interaction and the complexities of identifying user-specific objects. To address these limitations, we introduce Zero-shot Interactive Personalized Object Navigation (ZIPON), where robots need to navigate to personalized goal objects while engaging in conversations with users. To solve ZIPON, we propose a new framework termed Open-woRld Interactive persOnalized Navigation (ORION), which uses Large Language Models (LLMs) to make sequential decisions to manipulate different modules for perception, navigation and communication. Experimental results show that the performance of interactive agents that can leverage user feedback exhibits significant improvement. However, obtaining a good balance between task completion and the efficiency of navigation and interaction remains challenging for all methods. We further provide more findings on the impact of diverse user feedback forms on the agents' performance.
Abstract（参考訳）: Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。 ZSONの既存の研究は主に、汎用オブジェクトクラスを見つけるための個別の命令に従うことに焦点を当てており、自然言語の相互作用の利用や、ユーザ固有のオブジェクトを特定する複雑さを無視している。これらの制限に対処するために、ZIPON(Zero-shot Interactive Personalized Object Navigation)を導入する。 ZIPON を解決するために,Large Language Models (LLM) を用いた Open-woRld Interactive persOnalized Navigation (ORION) と呼ばれる新しいフレームワークを提案する。実験の結果,ユーザフィードバックを活用できる対話型エージェントの性能は著しく向上した。しかし,タスク完了とナビゲーションとインタラクションの効率のバランスが良好であることは,すべての方法において依然として困難である。さらに,多様なユーザフィードバックフォームがエージェントのパフォーマンスに与える影響について,さらなる知見を提供する。

関連論文リスト

Generative Interfaces for Language Models [70.25765232527762]
ユーザインタフェース(UI)を積極的に生成することにより,大規模言語モデル(LLM)がユーザクエリに応答するパラダイムを提案する。本フレームワークは,ユーザクエリをタスク固有のUIに変換するために,構造化インターフェース固有の表現と反復的洗練を活用している。その結果、生成的インタフェースは人間の嗜好を最大72%改善し、会話的インタフェースよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-08-26T17:43:20Z)
Utilizing Vision-Language Models as Action Models for Intent Recognition and Assistance [2.2893865000399938]
本稿では,視覚言語モデル (VLM) とテキストのみの言語モデル (LLM) によるGUIDERの拡張について述べる。ビジョンパイプラインは、候補対象の作物をVLMに供給し、オペレータのプロンプトが与えられた場合、その関連性を評価する。組み合わせた信念がしきい値を超えると、自律性が変化し、ロボットは所望の領域に移動し、所望の物体を回収することができる。
論文参考訳（メタデータ） (2025-08-14T22:19:09Z)
Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文参考訳（メタデータ） (2024-12-02T08:16:38Z)
Zero-shot Object Navigation with Vision-Language Models Reasoning [35.28869151048087]
本稿では,L-ZSONのためのツリー・オブ・ソート・ネットワーク(VLTNet)を用いたビジョン言語モデルを提案する。 VLTNetは、視覚言語モデル理解、セマンティックマッピング、ツリーオブ思考推論と探索、ゴール識別の4つの主要なモジュールから構成されている。 ToT推論を用いたナビゲーションは、従来のフロンティア選択と比較して、必要であればマルチパス推論プロセスとバックトラックを行う。
論文参考訳（メタデータ） (2024-10-24T09:24:07Z)
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
Human-Object Interaction from Human-Level Instructions [16.70362477046958]
対象動作,全体動作,指動作を人体レベルで同時に合成できる最初の完全システムを提案する。実験では,高レベルプランナが多目的物体の現実的相互作用を合成する上で,高レベルな目標レイアウトの生成に有効であることを実証した。
論文参考訳（メタデータ） (2024-06-25T17:46:28Z)
I2EDL: Interactive Instruction Error Detection and Localization [65.25839671641218]
連続環境(IVLN-CE)における対話型VLNの新たな課題を提案する。これにより、VLN-CEナビゲーション中にエージェントがユーザと対話し、命令エラーに関する疑念を検証できる。我々は、事前学習したモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで、命令中のそれらをピンポイントする。
論文参考訳（メタデータ） (2024-06-07T16:52:57Z)
Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation [16.789333617628138]
ソーシャルロボットナビゲーションプランナーは、2つの大きな課題に直面している。本稿では,対話型対話型ソーシャル・アウェア・ナビゲーションフレームワークであるSALMを紹介する。メモリ機構は、時間データを連続的な改善のためにアーカイブし、多段階のグラフは推論に基づく大規模言語フィードバックモデルが両方の計画手法の強みを適応的に融合させる。
論文参考訳（メタデータ） (2024-03-22T23:12:28Z)
OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文参考訳（メタデータ） (2024-02-16T13:21:33Z)
ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。 ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。 MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-01-30T18:37:32Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)
Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文参考訳（メタデータ） (2021-04-28T22:46:41Z)
Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文参考訳（メタデータ） (2021-03-30T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。