論文の概要: VPN: Visual Prompt Navigation
- arxiv url: http://arxiv.org/abs/2508.01766v1
- Date: Sun, 03 Aug 2025 14:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.05436
- Title: VPN: Visual Prompt Navigation
- Title(参考訳): VPN:ビジュアルプロンプトナビゲーション
- Authors: Shuo Feng, Zihan Wang, Yuchen Li, Rui Kong, Hengyi Cai, Shuaiqiang Wang, Gim Hee Lee, Piji Li, Shuqiang Jiang,
- Abstract要約: Visual Prompt Navigation(VPN)は、ユーザーが提供するビジュアルプロンプトのみを使用してエージェントをナビゲートする新しいパラダイムである。
VPNは主に、シーンのトップダウンビューで視覚的なナビゲーションの軌跡をマークすることに焦点を当てている。
VPNは、専門家でないユーザーにとってより親しみやすく、解釈の曖昧さを減らす。
- 参考スコア(独自算出の注目度): 86.7782248763078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While natural language is commonly used to guide embodied agents, the inherent ambiguity and verbosity of language often hinder the effectiveness of language-guided navigation in complex environments. To this end, we propose Visual Prompt Navigation (VPN), a novel paradigm that guides agents to navigate using only user-provided visual prompts within 2D top-view maps. This visual prompt primarily focuses on marking the visual navigation trajectory on a top-down view of a scene, offering intuitive and spatially grounded guidance without relying on language instructions. It is more friendly for non-expert users and reduces interpretive ambiguity. We build VPN tasks in both discrete and continuous navigation settings, constructing two new datasets, R2R-VP and R2R-CE-VP, by extending existing R2R and R2R-CE episodes with corresponding visual prompts. Furthermore, we introduce VPNet, a dedicated baseline network to handle the VPN tasks, with two data augmentation strategies: view-level augmentation (altering initial headings and prompt orientations) and trajectory-level augmentation (incorporating diverse trajectories from large-scale 3D scenes), to enhance navigation performance. Extensive experiments evaluate how visual prompt forms, top-view map formats, and data augmentation strategies affect the performance of visual prompt navigation. The code is available at https://github.com/farlit/VPN.
- Abstract(参考訳): 自然言語はエンボディ化されたエージェントを導くのによく使われるが、言語固有の曖昧さと冗長さは複雑な環境における言語誘導ナビゲーションの有効性を妨げている。
この目的のために,2次元トップビューマップ内のユーザが提供する視覚的プロンプトのみを用いてエージェントをナビゲートする,新しいパラダイムであるVisual Prompt Navigation(VPN)を提案する。
この視覚的プロンプトは、主に視覚的ナビゲーション軌跡をシーンのトップダウンビューにマークすることに焦点を当てており、言語指導に頼ることなく、直感的で空間的な指導を提供する。
非専門家にとってより親しみやすく、解釈の曖昧さを減らす。
R2R-VPとR2R-CE-VPという2つの新しいデータセットを構築し、既存のR2RとR2R-CEのエピソードを対応する視覚的プロンプトで拡張することでVPNタスクを構築する。
さらに、VPNタスクを処理するための専用ベースラインネットワークであるVPNetを導入し、ナビゲーション性能を向上させるために、ビューレベル拡張(初期方向とプロンプト方向の変更)とトラジェクトリレベル増強(大規模3Dシーンからの多様なトラジェクトリを含む)の2つのデータ拡張戦略を紹介した。
広範にわたる実験は、視覚的プロンプト形式、トップビューマップ形式、およびデータ拡張戦略が視覚的プロンプトナビゲーションのパフォーマンスに与える影響を評価する。
コードはhttps://github.com/farlit/VPNで公開されている。
関連論文リスト
- Do Visual Imaginations Improve Vision-and-Language Navigation Agents? [16.503837141587447]
VLN(Vision-and-Language Navigation)エージェントは、自然言語命令を使って見えない環境をナビゲートする。
本研究は,これらの指示によって示されるサブゴールの視覚的表現がナビゲーションの手がかりとなり,ナビゲーション性能が向上するかどうかを考察する。
論文 参考訳(メタデータ) (2025-03-20T17:53:12Z) - Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts [37.20272055902246]
Vision-and-Language Navigation with Multi-Modal Prompts (VLN-MP) は、自然言語と画像の両方を命令に統合することにより、従来のVLNを増強する新しいタスクである。
VLN-MPは、テキストのみのプロンプトを効果的に扱うことで後方互換性を維持するだけでなく、異なる量と視覚的プロンプトの関連性を一貫して示す。
論文 参考訳(メタデータ) (2024-06-04T11:06:13Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - VTNet: Visual Transformer Network for Object Goal Navigation [36.15625223586484]
ナビゲーションにおける情報的視覚表現を学習するためのVisual Transformer Network(VTNet)を導入する。
簡単に言うと、VTNetはオブジェクトとリージョンの機能を、空間認識ディスクリプタとして位置キューで埋め込む。
人工環境におけるAI2-Thorの実験は、VTNetが目に見えないテスト環境で最先端の手法を著しく上回っていることを実証している。
論文 参考訳(メタデータ) (2021-05-20T01:23:15Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。