論文の概要: Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues
- arxiv url: http://arxiv.org/abs/2412.01250v2
- Date: Sun, 16 Mar 2025 17:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:25.042032
- Title: Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues
- Title(参考訳): 協調型オブジェクトナビゲーション:人間-エージェント対話の最小化における不確実性認識の活用
- Authors: Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang,
- Abstract要約: 言語駆動のインスタンスオブジェクトナビゲーションでは、ターゲットインスタンスの詳細な記述をエンボディエージェントに提供することで、人間がタスクを開始することを前提としている。
我々は,人間との自然な,テンプレートのないオープンエンド対話において,ナビゲーション中にターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定であるCoIN(Collaborative Instance Object Navigation)を紹介した。
本研究では,ナビゲーションポリシーとは独立して機能する,新しいトレーニング不要なエージェント・ユーザ・インタラクションとUncerTainty Awareness (AIUTA)を提案する。
- 参考スコア(独自算出の注目度): 54.81155589931697
- License:
- Abstract: Language-driven instance object navigation assumes that human users initiate the task by providing a detailed description of the target instance to the embodied agent.While this description is crucial for distinguishing the target from visually similar instances in a scene, providing it prior to navigation can be demanding for human. To bridge this gap, we introduce Collaborative Instance object Navigation (CoIN), a new task setting where the agent actively resolve uncertainties about the target instance during navigation in natural, template-free, open-ended dialogues with human. We propose a novel training-free method, Agent-user Interaction with UncerTainty Awareness (AIUTA), which operates independently from the navigation policy, and focuses on the human-agent interaction reasoning with Vision-Language Models (VLMs) and Large Language Models (LLMs). First, upon object detection, a Self-Questioner model initiates a self-dialogue within the agent to obtain a complete and accurate observation description with a novel uncertainty estimation technique. Then, an Interaction Trigger module determines whether to ask a question to the human, continue or halt navigation, minimizing user input. For evaluation, we introduce CoIN-Bench, with a curated dataset designed for challenging multi-instance scenarios. CoIN-Bench supports both online evaluation with humans and reproducible experiments with simulated user-agent interactions. On CoIN-Bench, we show that AIUTA serves as a competitive baseline, while existing language-driven instance navigation methods struggle in complex multi-instance scenes. Code and benchmark will be available upon acceptance.
- Abstract(参考訳): 言語駆動のインスタンスオブジェクトナビゲーションでは,対象のインスタンスを具体化エージェントに詳細な記述を提供することで,人間がタスクを開始することを前提としている。
このギャップを埋めるために、我々はCoIN(Collaborative Instance Object Navigation)を導入します。これは、人間との自然な、テンプレートのないオープンエンド対話において、ナビゲーション中にターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定です。
本研究では、ナビゲーションポリシーとは独立して機能し、視覚言語モデル(VLM)とLarge Language Models(LLM)による人間とエージェントのインタラクションに焦点をあてる、新しいトレーニングフリーなエージェント・ユーザインタラクションUncerTainty Awareness(AIUTA)を提案する。
まず,対象物検出時にエージェント内で自己対話を開始し,新しい不確実性推定手法による完全かつ正確な観察記述を得る。
そして、インタラクショントリガーモジュールは、人間に質問をするか、ナビゲーションを継続するか、停止するかを判断し、ユーザ入力を最小限にする。
評価のために,マルチインスタンスシナリオに挑戦する目的で設計されたキュレートデータセットを備えたCoIN-Benchを導入する。
CoIN-Benchは、人間によるオンライン評価と、シミュレーションされたユーザとエージェントのインタラクションによる再現可能な実験の両方をサポートする。
CoIN-Benchでは、AIUTAが競合するベースラインとして機能し、既存の言語駆動のインスタンスナビゲーション手法は複雑なマルチインスタンスシーンで苦労している。
コードとベンチマークは受け入れ次第利用できる。
関連論文リスト
- Making Task-Oriented Dialogue Datasets More Natural by Synthetically Generating Indirect User Requests [6.33281463741573]
間接ユーザ要求(IUR)は、ヒューマン・ヒューマン・タスク指向の対話において一般的であり、聞き手からの世界的知識と実践的推論を必要とする。
大きな言語モデル(LLM)はこれらの要求を効果的に処理できるが、仮想アシスタントにデプロイされる小さなモデルはリソースの制約のためにしばしば苦労する。
論文 参考訳(メタデータ) (2024-06-12T01:18:04Z) - I2EDL: Interactive Instruction Error Detection and Localization [65.25839671641218]
連続環境(IVLN-CE)における対話型VLNの新たな課題を提案する。
これにより、VLN-CEナビゲーション中にエージェントがユーザと対話し、命令エラーに関する疑念を検証できる。
我々は、事前学習したモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで、命令中のそれらをピンポイントする。
論文 参考訳(メタデータ) (2024-06-07T16:52:57Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation [17.279875204729553]
Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。
ZIPONでは、ユーザーとの会話をしながら、ロボットがパーソナライズされた目標オブジェクトにナビゲートする必要がある。
我々は、知覚、ナビゲーション、コミュニケーションのための異なるモジュールを操作するためのシーケンシャルな決定を行うために、Open-woRld Interactive persOnalized Navigation (ORION)を提案する。
論文 参考訳(メタデータ) (2023-10-12T01:17:56Z) - Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。
本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T00:50:21Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。