論文の概要: Ask When It Pays: Cost-Aware Open-Ended Interaction for Instance Goal Navigation
- arxiv url: http://arxiv.org/abs/2606.03175v2
- Date: Wed, 03 Jun 2026 03:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.620465
- Title: Ask When It Pays: Cost-Aware Open-Ended Interaction for Instance Goal Navigation
- Title(参考訳): 支払いのタイミングを尋ねる:インスタンスゴールナビゲーションのためのコスト対応のオープンエンドインタラクション
- Authors: Xunyi Zhao, Sihao Lin, Gengze Zhou, Zerui Li, Shijie Li, Wei Tao, Jiajun Liu, Qi Wu,
- Abstract要約: インスタンスゴールナビゲーション(IGN)では、具体化されたエージェントが、未指定の自然言語記述からイントラクタ内の特定のインスタンスオブジェクトを見つける必要がある。
我々はIGNをコストに敏感な不確実性推論問題として再考する。
- 参考スコア(独自算出の注目度): 33.89987823594985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance Goal Navigation (IGN) requires an embodied agent to find a specific object instance among distractors from an under-specified natural-language description. Such ambiguity often cannot be resolved from perception and language alone, making interaction with an oracle a natural mechanism for disambiguation. Prior interactive methods allow oracle queries but treat lightweight clarification and route-level guidance alike, letting agents boost success rate through repeated high-information questions rather than by resolving the underlying ambiguity efficiently. We recast interactive IGN as a cost-sensitive uncertainty-reduction problem, where the agent should ask the question whose answer provides the largest reduction in navigation uncertainty relative to its penalty. To this end, we apply an information-gain analysis on existing navigation corpora to identify which cues reduce navigation uncertainty, yielding a compact set of question types and data-derived weights. However, existing interactive navigation benchmarks do not model the cost of different question types or evaluate how efficiently agents use interaction, making them unsuitable for studying cost-sensitive interaction. Based on this taxonomy, we construct a benchmark for diagnosing interaction behavior and efficiency, together with a Weighted Success Rate metric that penalizes each query by its derived cost. We further propose a zero-shot MLLM navigator that selectively queries at each decision step only when the expected uncertainty reduction justifies the interaction cost.
- Abstract(参考訳): インスタンスゴールナビゲーション(IGN)では、具体化されたエージェントが、未指定の自然言語記述からイントラクタ内の特定のオブジェクトインスタンスを見つける必要がある。
このような曖昧さは知覚と言語だけでは解決できないことが多く、神託との相互作用は曖昧さの自然なメカニズムである。
従来の対話的な方法では、オラクルクエリを扱えるが、軽量な明確化やルートレベルのガイダンスも扱えるため、エージェントは、基礎となる曖昧さを効率的に解決するのではなく、繰り返し高情報質問を通じて成功率を高めることができる。
本稿では,対話型IGNをコスト感受性の不確実性推論問題として再考する。
この目的のために,既存のナビゲーションコーパスに情報ゲイン分析を適用し,ナビゲーションの不確実性を低減し,質問型とデータ由来の重みのコンパクトなセットを生成する。
しかし、既存の対話型ナビゲーションベンチマークは、異なる質問型のコストをモデル化したり、エージェントがいかに効率的にインタラクションを使用するかを評価したりしないため、コスト感受性の相互作用を研究するには適さない。
この分類に基づいて,対話行動と効率の診断のためのベンチマークを構築し,各クエリをそのコストでペナライズする重み付き成功率指標を構築した。
さらに,提案するゼロショットMLLMナビゲータは,期待される不確実性低減が相互作用コストを正当化する場合にのみ,各決定ステップで選択的にクエリを行う。
関連論文リスト
- Benchmarking Interaction, Beyond Policy: a Reproducible Benchmark for Collaborative Instance Object Navigation [54.6417539730783]
Question-Asking Navigation (QAsk-Nav)は、CoIN(Collaborative Instance Object Navigation)の最初の再現可能なベンチマークである。
光コナブ(Light-CoNav)は,従来のモジュール方式よりも3倍小さく,70倍高速な協調ナビゲーションのための軽量統一モデルである。
論文 参考訳(メタデータ) (2026-03-31T21:45:00Z) - Value of Information: A Framework for Human-Agent Communication [34.068772934008244]
大きな言語モデル(LLM)エージェントは基本的なジレンマに直面している: ユーザ要求は不明確だが、エージェントは不完全な情報に対処するか、明確化のためにユーザーを中断するかを決定する必要がある。
我々は、情報の価値(VoI)を通じてこのトレードオフを解決する決定論的枠組みを導入する。
我々は、VoIが手作業で調整された最高のベースラインと一貫して一致し、高いコスト設定で最大1.36のユーティリティポイントを達成することを示す。
論文 参考訳(メタデータ) (2026-01-10T03:07:41Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - SUGAR: Leveraging Contextual Confidence for Smarter Retrieval [28.552283701883766]
セマンティック不確実性誘導適応検索(SUGAR)について紹介する。
我々は、文脈に基づくエントロピーを利用して、検索するかどうかを積極的に決定し、シングルステップとマルチステップの検索を更に決定する。
実験の結果,意味的不確実性推定によって導かれる選択探索により,多様な質問応答タスクのパフォーマンスが向上し,より効率的な推論が達成された。
論文 参考訳(メタデータ) (2025-01-09T01:24:59Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。