論文の概要: DialNav: Multi-turn Dialog Navigation with a Remote Guide
- arxiv url: http://arxiv.org/abs/2509.12894v1
- Date: Tue, 16 Sep 2025 09:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.015146
- Title: DialNav: Multi-turn Dialog Navigation with a Remote Guide
- Title(参考訳): DialNav: リモートガイド付きマルチターンダイアログナビゲーション
- Authors: Leekyeung Han, Hyunji Min, Gyeom Hwangbo, Jonghyun Choi, Paul Hongsuck Seo,
- Abstract要約: ナビゲーションエージェント(ナビゲータ)とリモートガイド(ガイド)が複数回対話して目標地点に到達するダイアログであるDialNavを紹介する。
以前の作業とは異なり、DialNavは全体的な評価を目指しており、ナビゲーターの位置を推測するためにガイドが必要である。
- 参考スコア(独自算出の注目度): 28.828701873324963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DialNav, a novel collaborative embodied dialog task, where a navigation agent (Navigator) and a remote guide (Guide) engage in multi-turn dialog to reach a goal location. Unlike prior work, DialNav aims for holistic evaluation and requires the Guide to infer the Navigator's location, making communication essential for task success. To support this task, we collect and release the Remote Assistance in Navigation (RAIN) dataset, human-human dialog paired with navigation trajectories in photorealistic environments. We design a comprehensive benchmark to evaluate both navigation and dialog, and conduct extensive experiments analyzing the impact of different Navigator and Guide models. We highlight key challenges and publicly release the dataset, code, and evaluation framework to foster future research in embodied dialog.
- Abstract(参考訳): ナビゲーションエージェント(ナビゲータ)とリモートガイド(ガイド)が複数ターンダイアログを交互に実行して,目標地点に到達させる,新しい協調型ダイアログタスクであるDialNavを紹介する。
以前の作業とは異なり、DialNavは全体的な評価を目標としており、ナビゲータの位置を推測するためにガイドが必要であるため、タスクの成功にはコミュニケーションが不可欠である。
このタスクを支援するために、光現実環境におけるナビゲーショントラジェクトリと組み合わせた人間と人間の対話であるRemote Assistance in Navigation (RAIN)データセットを収集、リリースする。
我々は、ナビゲーションとダイアログの両方を評価するための包括的なベンチマークを設計し、異なるナビゲータとガイドモデルの影響を分析する広範囲な実験を行う。
我々は、重要な課題を強調し、エボダイアログにおける将来の研究を促進するために、データセット、コード、評価フレームワークを公開します。
関連論文リスト
- InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [5.43847693345519]
本研究では,汎用的な命令ナビゲーションシステムであるInstructNavを提案する。
InstructNavは、ナビゲーショントレーニングやビルド済みのマップを使わずに、さまざまな命令ナビゲーションタスクを最初に処理する。
InstructNavでは、R2R-CEタスクを初めてゼロショットで完了し、多くのタスク学習方法より優れています。
論文 参考訳(メタデータ) (2024-06-07T12:26:34Z) - NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - R2H: Building Multimodal Navigation Helpers that Respond to Help
Requests [30.695642371684663]
まず、マルチモーダルナビゲーションヘルパーの開発を促進するために、新しいベンチマークであるRespond to Help Requests (R2H)を導入する。
R2Hは主に2つのタスクを含む:(1)対話履歴(RDH)、(2)対話履歴に基づいて情報応答を生成するヘルパーエージェントの能力を評価する、(2)対話中の応答(RdI)、(2)タスクパフォーマーとの一貫性のある協調における応答の有効性と効率を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:12:09Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。
視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-30T11:53:49Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Augmented reality navigation system for visual prosthesis [67.09251544230744]
反応ナビゲーションと経路計画のソフトウェアを組み込んだ視覚補綴用拡張現実ナビゲーションシステムを提案する。
対象を地図上に配置し、対象の軌道を計画し、対象に示し、障害なく再計画する。
その結果,目標を達成するための時間と距離を減らし,障害物衝突の回数を大幅に減らし,航法性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-30T09:41:40Z) - VISITRON: Visual Semantics-Aligned Interactively Trained
Object-Navigator [41.060371177425175]
写真リアル環境をナビゲートする対話型ロボットは、視覚・言語ナビゲーション(VLN)の基礎となる課題に直面している
CVDN固有の対話型システムに適したナビゲータであるVISITRONを提案する。
CVDNの性能向上と経験的洞察を得るため,VISITRONと広範囲にわたるアブリケーションを行った。
論文 参考訳(メタデータ) (2021-05-25T00:21:54Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。