論文の概要: Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities
- arxiv url: http://arxiv.org/abs/2507.13019v1
- Date: Thu, 17 Jul 2025 11:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.473752
- Title: Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities
- Title(参考訳): 視覚・言語ナビゲーションにおける身体的ギャップの再考 : 身体的・視覚的差異の総合的研究
- Authors: Liuyi Wang, Xinyuan Xia, Hui Zhao, Hanqing Wang, Tai Wang, Yilun Chen, Chengju Liu, Qijun Chen, Jiangmiao Pang,
- Abstract要約: VLN-PEは、人間型、四足型、車輪型ロボットをサポートする物理的に現実的なVLNプラットフォームである。
われわれは,エゴ中心のVLN手法を,様々な技術パイプラインにまたがる物理ロボット設定において初めて評価した。
以上の結果から,ロボット観測空間の制限,環境光の変動,衝突や落下などの物理的課題による性能劣化が明らかとなった。
- 参考スコア(独自算出の注目度): 31.498539233768334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision-and-Language Navigation (VLN) advancements are promising, but their idealized assumptions about robot movement and control fail to reflect physically embodied deployment challenges. To bridge this gap, we introduce VLN-PE, a physically realistic VLN platform supporting humanoid, quadruped, and wheeled robots. For the first time, we systematically evaluate several ego-centric VLN methods in physical robotic settings across different technical pipelines, including classification models for single-step discrete action prediction, a diffusion model for dense waypoint prediction, and a train-free, map-based large language model (LLM) integrated with path planning. Our results reveal significant performance degradation due to limited robot observation space, environmental lighting variations, and physical challenges like collisions and falls. This also exposes locomotion constraints for legged robots in complex environments. VLN-PE is highly extensible, allowing seamless integration of new scenes beyond MP3D, thereby enabling more comprehensive VLN evaluation. Despite the weak generalization of current models in physical deployment, VLN-PE provides a new pathway for improving cross-embodiment's overall adaptability. We hope our findings and tools inspire the community to rethink VLN limitations and advance robust, practical VLN models. The code is available at https://crystalsixone.github.io/vln_pe.github.io/.
- Abstract(参考訳): 近年のVLN(Vision-and-Language Navigation)の進歩は有望であるが、ロボットの動きや制御に関する理想的な仮定は、物理的に具体化された展開課題を反映しない。
このギャップを埋めるために、人間型、四脚型、車輪型ロボットをサポートする物理的に現実的なVLNプラットフォームであるVLN-PEを導入する。
単段階離散動作予測の分類モデル,高密度ウェイポイント予測の拡散モデル,および経路計画と統合された無列車マップベース大規模言語モデル(LLM)など,異なる技術パイプライン間での物理的ロボット設定において,エゴ中心のVLN手法を体系的に評価した。
以上の結果から,ロボット観測空間の制限,環境光の変動,衝突や落下などの物理的課題による性能劣化が明らかとなった。
また、複雑な環境下での足のロボットの移動制限も露呈する。
VLN-PEは拡張性が高く,MP3Dを超える新たなシーンをシームレスに統合することで,より包括的なVLN評価を実現する。
物理展開における現在のモデルの弱い一般化にもかかわらず、VLN-PEは、クロスエボディメントの全体的な適応性を改善するための新しい経路を提供する。
我々の発見とツールがコミュニティにVLNの制限を再考し、堅牢で実用的なVLNモデルを前進させることを期待しています。
コードはhttps://crystalsixone.github.io/vln_pe.github.io/で公開されている。
関連論文リスト
- VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions [69.9980759344628]
Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。
本稿では,人間の動的活動を取り入れ,従来のVLNを拡張したHuman-Aware Vision-and-Language Navigation (HA-VLN)を紹介する。
本稿では, クロスモーダル融合と多種多様なトレーニング戦略を利用して, エキスパート・スーパーモーダル・クロスモーダル (VLN-CM) と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー (VLN-DT) のエージェントを提示する。
論文 参考訳(メタデータ) (2024-06-27T15:01:42Z) - Explore the Potential Performance of Vision-and-Language Navigation
Model: a Snapshot Ensemble Method [6.349841849317769]
VLN(Vision-and-Language Navigation)は、人工知能分野における課題である。
VLNモデルを改善するための新しい視点を提供する。
論文 参考訳(メタデータ) (2021-11-28T23:07:48Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。