論文の概要: Benchmarking Interaction, Beyond Policy: a Reproducible Benchmark for Collaborative Instance Object Navigation
- arxiv url: http://arxiv.org/abs/2604.00265v1
- Date: Tue, 31 Mar 2026 21:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.738437
- Title: Benchmarking Interaction, Beyond Policy: a Reproducible Benchmark for Collaborative Instance Object Navigation
- Title(参考訳): ポリシーを超えたベンチマークインタラクション: 協調型インスタンスオブジェクトナビゲーションのための再現可能なベンチマーク
- Authors: Edoardo Zorzi, Francesco Taioli, Yiming Wang, Marco Cristani, Alessandro Farinelli, Alberto Castellini, Loris Bazzani,
- Abstract要約: Question-Asking Navigation (QAsk-Nav)は、CoIN(Collaborative Instance Object Navigation)の最初の再現可能なベンチマークである。
光コナブ(Light-CoNav)は,従来のモジュール方式よりも3倍小さく,70倍高速な協調ナビゲーションのための軽量統一モデルである。
- 参考スコア(独自算出の注目度): 54.6417539730783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Question-Asking Navigation (QAsk-Nav), the first reproducible benchmark for Collaborative Instance Object Navigation (CoIN) that enables an explicit, separate assessment of embodied navigation and collaborative question asking. CoIN tasks an embodied agent with reaching a target specified in free-form natural language under partial observability, using only egocentric visual observations and interactive natural-language dialogue with a human, where the dialogue can help to resolve ambiguity among visually similar object instances. Existing CoIN benchmarks are primarily focused on navigation success and offer no support for consistent evaluation of collaborative interaction. To address this limitation, QAsk-Nav provides (i) a lightweight question-asking protocol scored independently of navigation, (ii) an enhanced navigation protocol with realistic, diverse, high-quality target descriptions, and (iii) an open-source dataset, that includes 28,000 quality-checked reasoning and question-asking traces for training and analysis of interactive capabilities of CoIN models. Using the proposed QAsk-Nav benchmark, we develop Light-CoNav, a lightweight unified model for collaborative navigation that is 3x smaller and 70x faster than existing modular methods, while outperforming state-of-the-art CoIN approaches in generalization to unseen objects and environments. Project page at https://benchmarking-interaction.github.io/
- Abstract(参考訳): 本研究では,コラボレーティブ・インスタンス・オブジェクト・ナビゲーション(CoIN)のための最初の再現可能なベンチマークであるQAsk-Navを提案する。
CoINは、自己中心的な視覚観察と人間との対話のみを使用して、部分的に可観測性の下で自由形態の自然言語で特定された目標に達するという、具体的エージェントをタスクし、視覚的に類似したオブジェクトインスタンス間のあいまいさを解決するのに役立つ。
既存のCoINベンチマークは主にナビゲーションの成功に焦点を当てており、協調インタラクションの一貫性のある評価をサポートしない。
この制限に対処するため、QAsk-Navは
(i)ナビゲーションとは独立して得られる軽量な問合せプロトコル。
(二)現実的で多様で高品質な目標記述を備えた拡張航法プロトコル、及び
(iii)CoINモデルの対話的能力のトレーニングと分析のための28,000の品質チェックされた推論と質問応答トレースを含むオープンソースのデータセット。
提案するQAsk-Navベンチマークを用いて,既存のモジュール方式よりも3倍小さく,70倍高速な協調ナビゲーションのための軽量統一モデルであるLight-CoNavを開発した。
Project page at https://benchmarking-interaction.github.io/
関連論文リスト
- VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs [51.18508300818979]
Vision Language-Language Navigation (VL-LN)ベンチマークは、ダイアログ対応ナビゲーションモデルのトレーニングと評価のための大規模で自動生成されたデータセットを提供する。
VL−LNは、トレーニング用41k以上の長軸ダイアログ拡張軌道と、エージェントクエリに応答可能なオラクルを備えた自動評価プロトコルとを備える。
論文 参考訳(メタデータ) (2025-12-26T19:00:12Z) - RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation [57.197881161006904]
近年のイメージゴールナビゲーション(ImageNav)手法は,目標と自我中心の画像の意味的特徴を別々に捉え,知覚行動ポリシーを学習している。
本稿では,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
論文 参考訳(メタデータ) (2025-04-25T00:22:17Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。