論文の概要: DeCoNav: Dialog enhanced Long-Horizon Collaborative Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2604.12486v1
- Date: Tue, 14 Apr 2026 09:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.366952
- Title: DeCoNav: Dialog enhanced Long-Horizon Collaborative Vision-Language Navigation
- Title(参考訳): DeCoNav: 長距離共同視線ナビゲーションを強化したダイアログ
- Authors: Sunyao Zhou, Yunzi Wu, Tianhang Wang, Xinhai Li, Guang Chen, Lizheng Liu, Chenjia Bai, Xuelong Li,
- Abstract要約: ロングホライゾン協調視覚言語ナビゲーション(Long-Horizon collaborative vision- language navigation, VLN)は、マルチロボットシステムにおいて、単一のエージェントの能力を超える複雑なタスクを達成するために重要である。
ダイアログを改良したLong-Horizon Collaborative Vision-Language Navigation (DeCoNav)を提案する。
DeCoNavは、イベントトリガーされた対話と動的タスク割り当てとリアルタイム適応調整のための再計画を結合する分散フレームワークである。
- 参考スコア(独自算出の注目度): 51.978605314711835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon collaborative vision-language navigation (VLN) is critical for multi-robot systems to accomplish complex tasks beyond the capability of a single agent. CoNavBench takes a first step by introducing the first collaborative long-horizon VLN benchmark with relay-style multi-robot tasks, a collaboration taxonomy, along with graph-grounded generation and evaluation to model handoffs and rendezvous in shared environments. However, existing benchmarks and evaluations often do not enforce strictly synchronized dual-robot rollout on a shared world timeline, and they typically rely on static coordination policies that cannot adapt when new cross-agent evidence emerges. We present Dialog enhanced Long-Horizon Collaborative Vision-Language Navigation (DeCoNav), a decentralized framework that couples event-triggered dialogue with dynamic task allocation and replanning for real-time, adaptive coordination. In DeCoNav, robots exchange compact semantic states via dialogue without a central controller. When informative events such as new evidence, uncertainty, or conflicts arise, dialogue is triggered to dynamically reassign subgoals and replan under synchronized execution. Implemented in DeCoNavBench with 1,213 tasks across 176 HM3D scenes, DeCoNav improves the both-success rate (BSR) by 69.2%, demonstrating the effectiveness of dialogue-driven, dynamically reallocated planning for multi-robot collaboration.
- Abstract(参考訳): ロングホライゾン協調視覚言語ナビゲーション(Long-Horizon collaborative vision- language navigation, VLN)は、マルチロボットシステムにおいて、単一のエージェントの能力を超える複雑なタスクを達成するために重要である。
CoNavBench氏は最初のステップとして、リレースタイルのマルチロボットタスク、コラボレーションの分類、グラフ基底生成、共有環境でのハンドオフとランデブーのモデル評価などを備えた、最初のコラボレーティブなロングホライゾンVLNベンチマークを紹介した。
しかし、既存のベンチマークや評価では、共有ワールドタイムライン上で厳密に同期されたデュアルロボットのロールアウトを強制しないことが多く、新しいクロスエージェントエビデンスが発生すると適応できない静的コーディネーションポリシーに依存していることが多い。
本稿では,動的タスクアロケーションとイベントトリガー対話を組み合わせた分散フレームワークであるLong-Horizon Collaborative Vision-Language Navigation (DeCoNav)について述べる。
DeCoNavでは、ロボットは中央コントローラなしで対話を通じてコンパクトなセマンティックステートを交換する。
新たな証拠、不確実性、紛争などの情報的事象が発生すると、対話が引き起こされ、パラゴールを動的に再割り当てし、同期実行下で再計画される。
DeCoNavBenchで176のHM3Dシーンで1,213のタスクで実装されたDeCoNavは、対話駆動の動的再配置計画の有効性を実証し、両方の成功率(BSR)を69.2%改善した。
関連論文リスト
- Benchmarking Interaction, Beyond Policy: a Reproducible Benchmark for Collaborative Instance Object Navigation [54.6417539730783]
Question-Asking Navigation (QAsk-Nav)は、CoIN(Collaborative Instance Object Navigation)の最初の再現可能なベンチマークである。
光コナブ(Light-CoNav)は,従来のモジュール方式よりも3倍小さく,70倍高速な協調ナビゲーションのための軽量統一モデルである。
論文 参考訳(メタデータ) (2026-03-31T21:45:00Z) - EmCoop: A Framework and Benchmark for Embodied Cooperation Among LLM Agents [18.802912315746564]
EmCoopは、組み込みマルチエージェントシステムの協調を研究するためのベンチマークフレームワークである。
我々のフレームワークは、高レベルの認知層と低レベルのエンボディドインタラクション層を分離する。
コラボレーションの品質と障害モードを診断する,一般化可能なプロセスレベルのメトリクスを提案する。
論文 参考訳(メタデータ) (2026-02-27T22:28:33Z) - VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs [51.18508300818979]
Vision Language-Language Navigation (VL-LN)ベンチマークは、ダイアログ対応ナビゲーションモデルのトレーニングと評価のための大規模で自動生成されたデータセットを提供する。
VL−LNは、トレーニング用41k以上の長軸ダイアログ拡張軌道と、エージェントクエリに応答可能なオラクルを備えた自動評価プロトコルとを備える。
論文 参考訳(メタデータ) (2025-12-26T19:00:12Z) - Advancing Audio-Visual Navigation Through Multi-Agent Collaboration in 3D Environments [37.73614419658084]
MASTAVNはスケーラブルなフレームワークで、2人のエージェントが共同で3D環境でオーディオターゲットにローカライズし、ナビゲートすることができる。
MASTAVNは単一エージェントや非協調ベースラインと比較してタスク完了時間の大幅な短縮とナビゲーション成功率の顕著な改善を実現している。
論文 参考訳(メタデータ) (2025-09-21T05:05:26Z) - SayCoNav: Utilizing Large Language Models for Adaptive Collaboration in Decentralized Multi-Robot Navigation [10.877873071364148]
ロボットチーム間での協調戦略を自動生成するために,大規模言語モデル(LLM)を活用する新しいアプローチであるSayCoNavを提案する。
我々は,SyCoNav on Multi-Object Navigation (MultiON) タスクを評価する。これはロボットのチームが,未知の環境で複数の異なる物体を効率的に探索するために,相補的な強みを利用する必要がある。
論文 参考訳(メタデータ) (2025-05-19T20:58:06Z) - CAMON: Cooperative Agents for Multi-Object Navigation with LLM-based Conversations [22.79813240034754]
大規模言語モデル(LLM)は、目覚ましい理解と計画能力を示した。
本稿では,LLM対応通信と協調を利用した分散マルチエージェントナビゲーションのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-30T09:14:33Z) - Unified Human-Scene Interaction via Prompted Chain-of-Contacts [61.87652569413429]
HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
論文 参考訳(メタデータ) (2023-09-14T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。