Fugu-MT 論文翻訳(概要): Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

論文の概要: Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

arxiv url: http://arxiv.org/abs/2412.01250v1
Date: Mon, 02 Dec 2024 08:16:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.456403
Title: Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input
Title（参考訳）: 協調型インスタンスナビゲーション: ユーザ入力を最小限にするためにエージェントのセルフダイアログを活用する
Authors: Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang,
Abstract要約: 我々は,ナビゲーション中の動的エージェントと人間との相互作用を考慮したCoIN(Collaborative Instance Navigation)を提案する。 CoINに対処するために,新しいエージェント・ユーザ・インタラクションとUncerTainty Awareness (AIUTA)を提案する。 AIUTAは、最先端のメソッドに対するナビゲーションにおける競合的なパフォーマンスを実現し、ユーザの入力を処理する際の柔軟性を示している。
参考スコア（独自算出の注目度）: 54.81155589931697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing embodied instance goal navigation tasks, driven by natural language, assume human users to provide complete and nuanced instance descriptions prior to the navigation, which can be impractical in the real world as human instructions might be brief and ambiguous. To bridge this gap, we propose a new task, Collaborative Instance Navigation (CoIN), with dynamic agent-human interaction during navigation to actively resolve uncertainties about the target instance in natural, template-free, open-ended dialogues. To address CoIN, we propose a novel method, Agent-user Interaction with UncerTainty Awareness (AIUTA), leveraging the perception capability of Vision Language Models (VLMs) and the capability of Large Language Models (LLMs). First, upon object detection, a Self-Questioner model initiates a self-dialogue to obtain a complete and accurate observation description, while a novel uncertainty estimation technique mitigates inaccurate VLM perception. Then, an Interaction Trigger module determines whether to ask a question to the user, continue or halt navigation, minimizing user input. For evaluation, we introduce CoIN-Bench, a benchmark supporting both real and simulated humans. AIUTA achieves competitive performance in instance navigation against state-of-the-art methods, demonstrating great flexibility in handling user inputs.
Abstract（参考訳）: 既存の具体化されたインスタンスゴールナビゲーションタスクは、自然言語によって駆動され、人間のユーザがナビゲーションの前に完全でニュアンスのあるインスタンス記述を提供すると仮定する。このギャップを埋めるため、我々はCoIN(Collaborative Instance Navigation)という新しいタスクを提案し、自然でテンプレートフリーでオープンな対話において、ターゲットインスタンスに関する不確実性を積極的に解決する。視覚言語モデル(VLM)の知覚能力とLarge Language Models(LLM)の知覚能力を活用することで,AIUTA(Agent-user Interaction with UncerTainty Awareness)を提案する。まず,物体検出を行うと,自己対話モデルにより完全かつ正確な観察記述を得るとともに,新しい不確実性推定手法により不正確なVLM知覚が軽減される。次に、Interaction Triggerモジュールは、ユーザに対して質問をするか、ナビゲーションを継続するか、停止するかを判断し、ユーザ入力を最小限にする。評価のために,実とシミュレーションの両方をサポートするベンチマークであるCoIN-Benchを紹介する。 AIUTAは、最先端のメソッドに対するナビゲーションにおける競合的なパフォーマンスを実現し、ユーザの入力を処理する際の柔軟性を示している。

関連論文リスト

CogDDN: A Cognitive Demand-Driven Navigation with Decision Optimization and Dual-Process Thinking [22.817457688303513]
人間の認知と学習のメカニズムをエミュレートするVLMベースのフレームワークであるCogDDNを提案する。 CogDDNは、検出されたオブジェクトを所定の命令で意味的にアライメントすることで、適切なターゲットオブジェクトを特定する。高速かつ効率的な意思決定のためのヒューリスティックプロセスと過去のエラーを分析する分析プロセスで構成される、デュアルプロセスの意思決定モジュールが組み込まれている。
論文参考訳（メタデータ） (2025-07-15T14:06:24Z)
PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文参考訳（メタデータ） (2025-06-06T17:29:49Z)
Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions [25.464036307823974]
SocialEgoNetはグラフベースのフレームワークで、階層的な学習アプローチを通じてタスク依存を利用する。 SocialEgoNetは、高い推論速度のためにビデオ入力のわずか1秒から抽出されたボディスケルトン(顔、手、体からキーポイント)を使用する。評価のために、新しいクラスラベルとバウンディングボックスアノテーションとの既存のエゴセントリックなヒューマンエージェントインタラクションを強化する。
論文参考訳（メタデータ） (2024-12-21T16:54:28Z)
I2EDL: Interactive Instruction Error Detection and Localization [65.25839671641218]
連続環境(IVLN-CE)における対話型VLNの新たな課題を提案する。これにより、VLN-CEナビゲーション中にエージェントがユーザと対話し、命令エラーに関する疑念を検証できる。我々は、事前学習したモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで、命令中のそれらをピンポイントする。
論文参考訳（メタデータ） (2024-06-07T16:52:57Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文参考訳（メタデータ） (2023-10-15T16:42:14Z)
Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation [17.279875204729553]
Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。 ZIPONでは、ユーザーとの会話をしながら、ロボットがパーソナライズされた目標オブジェクトにナビゲートする必要がある。我々は、知覚、ナビゲーション、コミュニケーションのための異なるモジュールを操作するためのシーケンシャルな決定を行うために、Open-woRld Interactive persOnalized Navigation (ORION)を提案する。
論文参考訳（メタデータ） (2023-10-12T01:17:56Z)
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文参考訳（メタデータ） (2023-10-11T21:07:14Z)
H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文参考訳（メタデータ） (2022-10-22T18:39:33Z)
Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。 PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文参考訳（メタデータ） (2022-08-16T17:17:53Z)
Multi-Agent Embodied Visual Semantic Navigation with Scene Prior Knowledge [42.37872230561632]
視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
論文参考訳（メタデータ） (2021-09-20T13:31:03Z)
Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。 V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文参考訳（メタデータ） (2020-03-31T08:42:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。