論文の概要: Does Peer Observation Help? Vision-Sharing Collaboration for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2603.20804v1
- Date: Sat, 21 Mar 2026 12:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.092832
- Title: Does Peer Observation Help? Vision-Sharing Collaboration for Vision-Language Navigation
- Title(参考訳): ピアオブザーバは役立つか? ビジョンランゲージナビゲーションのためのビジョン共有コラボレーション
- Authors: Qunchao Jin, Yiliao Song, Qi Wu,
- Abstract要約: Vision-Language Navigation (VLN) システムは、部分的な可観測性によって基本的に制限されている。
本稿では,最小限のモデルに依存しないフレームワークであるCo-VLNを紹介する。
- 参考スコア(独自算出の注目度): 13.58746048033044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) systems are fundamentally constrained by partial observability, as an agent can only accumulate knowledge from locations it has personally visited. As multiple robots increasingly coexist in shared environments, a natural question arises: can agents navigating the same space benefit from each other's observations? In this work, we introduce Co-VLN, a minimalist, model-agnostic framework for systematically investigating whether and how peer observations from concurrently navigating agents can benefit VLN. When independently navigating agents identify common traversed locations, they exchange structured perceptual memory, effectively expanding each agent's receptive field at no additional exploration cost. We validate our framework on the R2R benchmark under two representative paradigms (the learning-based DUET and the zero-shot MapGPT), and conduct extensive analytical experiments to systematically reveal the underlying dynamics of peer observation sharing in VLN. Results demonstrate that vision-sharing enabled model yields substantial performance improvements across both paradigms, establishing a strong foundation for future research in collaborative embodied navigation.
- Abstract(参考訳): VLN(Vision-Language Navigation)システムは、エージェントが個人的に訪れた場所からしか知識を蓄積できないため、部分的に可観測性によって基本的に制限されている。
複数のロボットが共有環境で共存するにつれて、自然な疑問が生まれます。
本研究では, 並列操作エージェントからのピアオブザーバがVLNに有効であるかどうかを系統的に調査する, 最小限のモデルに依存しないフレームワークであるCo-VLNを紹介する。
エージェントが単独で移動している場所を特定すると、それらは構造化された知覚記憶を交換し、各エージェントの受容領域を追加の探査コストなしで効果的に拡大する。
我々は,R2Rベンチマークのフレームワークを2つの代表的なパラダイム(学習ベースDUETとゼロショットMapGPT)で検証し,VLNにおけるピア・オブザーバ・シェアリングの基礎となるダイナミクスを体系的に明らかにするために,広範な分析実験を行った。
その結果、視覚的共有可能なモデルにより、両方のパラダイムにおいて大幅な性能向上が達成され、コラボレーティブ・エンボディド・ナビゲーションにおける将来の研究の基盤が確立された。
関連論文リスト
- Embodied World Models Emerge from Navigational Task in Open-Ended Environments [5.785697934050656]
プロシージャ的に生成された平面迷路を解決するために,スパース報酬のみで訓練された反復エージェントが,方向,距離,障害物レイアウトなどの計量概念を自律的に内部化できるかどうかを問う。
トレーニングの後、エージェントは、下層の空間モデルにヒントを与える行動である、見えない迷路において、常に準最適経路を生成する。
論文 参考訳(メタデータ) (2025-04-15T17:35:13Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Causality-based Cross-Modal Representation Learning for
Vision-and-Language Navigation [15.058687283978077]
VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。
既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。
本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
論文 参考訳(メタデータ) (2024-03-06T02:01:38Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。