論文の概要: Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments
- arxiv url: http://arxiv.org/abs/2502.19024v1
- Date: Wed, 26 Feb 2025 10:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:55.205888
- Title: Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments
- Title(参考訳): 連続環境における地上レベルの視線・視線ナビゲーション
- Authors: Zerui Li, Gengze Zhou, Haodong Hong, Yanyan Shao, Wenqi Lyu, Yanyuan Qiao, Qi Wu,
- Abstract要約: VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
- 参考スコア(独自算出の注目度): 10.953629652228024
- License:
- Abstract: Vision-and-Language Navigation (VLN) empowers agents to associate time-sequenced visual observations with corresponding instructions to make sequential decisions. However, generalization remains a persistent challenge, particularly when dealing with visually diverse scenes or transitioning from simulated environments to real-world deployment. In this paper, we address the mismatch between human-centric instructions and quadruped robots with a low-height field of view, proposing a Ground-level Viewpoint Navigation (GVNav) approach to mitigate this issue. This work represents the first attempt to highlight the generalization gap in VLN across varying heights of visual observation in realistic robot deployments. Our approach leverages weighted historical observations as enriched spatiotemporal contexts for instruction following, effectively managing feature collisions within cells by assigning appropriate weights to identical features across different viewpoints. This enables low-height robots to overcome challenges such as visual obstructions and perceptual mismatches. Additionally, we transfer the connectivity graph from the HM3D and Gibson datasets as an extra resource to enhance spatial priors and a more comprehensive representation of real-world scenarios, leading to improved performance and generalizability of the waypoint predictor in real-world environments. Extensive experiments demonstrate that our Ground-level Viewpoint Navigation (GVnav) approach significantly improves performance in both simulated environments and real-world deployments with quadruped robots.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントに対して、時系列の視覚観察と対応する命令を関連付けることで、シーケンシャルな決定を行う。
しかし、特に視覚的に多様なシーンを扱う場合や、シミュレートされた環境から現実のデプロイメントに移行する場合、一般化は永続的な課題である。
本稿では、人間中心の指示と低高度の視野を持つ四足歩行ロボットとのミスマッチに対処し、この問題を軽減するために地上視点ナビゲーション(GVNav)アプローチを提案する。
この研究は、現実的なロボットの展開において、様々な高度の視覚的観察におけるVLNの一般化ギャップを強調する最初の試みである。
提案手法は,重み付けされた歴史観測を高密度な時空間コンテキストとして活用し,異なる視点で適切な重み付けを同一の特徴に割り当てることにより,細胞内の特徴衝突を効果的に管理する。
これにより、低体重ロボットは視覚障害や知覚ミスマッチといった課題を克服することができる。
さらに,HM3DとGibsonのデータセットから接続グラフを余分なリソースとして転送し,空間的事前性を高め,現実のシナリオをより包括的に表現することで,実環境におけるウェイポイント予測器の性能と一般化性を向上させる。
広汎な実験により、地上レベルのビューポイントナビゲーション(GVnav)アプローチは、四足歩行ロボットによるシミュレーション環境と実世界のデプロイの両方のパフォーマンスを著しく改善することが示された。
関連論文リスト
- World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。
VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。
多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文 参考訳(メタデータ) (2024-12-09T11:40:54Z) - AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans [2.940962519388297]
適応視覚言語ナビゲーション(Adaptive Visual Language Navigation, AdaVLN)と呼ばれるタスクの拡張を提案する。
AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をナビゲートするロボットを必要とする。
本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
論文 参考訳(メタデータ) (2024-11-27T17:36:08Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Narrowing the Gap between Vision and Action in Navigation [28.753809306008996]
本稿では,高レベル動作予測を併用した低レベル動作デコーダを提案する。
我々のエージェントは、ハイレベルアクションとローレベルアクションの両方の強力なベースラインと比較して、ナビゲーション性能の指標を改善することができる。
論文 参考訳(メタデータ) (2024-08-19T20:09:56Z) - AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and Scale [2.462953128215088]
Active Visual Exploration (AVE)は、観察(グランプ)を動的に選択するタスクである。
光ズーム機能を備えた既存のモバイルプラットフォームは、任意の位置とスケールを垣間見ることができる。
AdaGlimpseは、探索作業に適した強化学習アルゴリズムであるSoft Actor-Criticを使って、任意の位置と規模を垣間見る。
論文 参考訳(メタデータ) (2024-04-04T14:35:49Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T04:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。