論文の概要: VLNVerse: A Benchmark for Vision-Language Navigation with Versatile, Embodied, Realistic Simulation and Evaluation
- arxiv url: http://arxiv.org/abs/2512.19021v1
- Date: Mon, 22 Dec 2025 04:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.616724
- Title: VLNVerse: A Benchmark for Vision-Language Navigation with Versatile, Embodied, Realistic Simulation and Evaluation
- Title(参考訳): VLNVerse: Versatile, Embodied, Realistic Simulation を用いた視覚言語ナビゲーションのベンチマークと評価
- Authors: Sihao Lin, Zerui Li, Xunyi Zhao, Gengze Zhou, Liuyi Wang, Rong Wei, Rui Tang, Juncheng Li, Hanqing Wang, Jiangmiao Pang, Anton van den Hengel, Jiajun Liu, Qi Wu,
- Abstract要約: 本稿では,Versatile, Embodied, Realistic Simulation, EvaluationのベンチマークであるVLNVerseを紹介する。
VLNVerseは、スケーラブルでフルスタックのAI問題としてVLNを再定義する。
ベンチマーク内の全てのタスクに対処できる新しいマルチタスクモデルを提案する。
- 参考スコア(独自算出の注目度): 61.82502719679122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite remarkable progress in Vision-Language Navigation (VLN), existing benchmarks remain confined to fixed, small-scale datasets with naive physical simulation. These shortcomings limit the insight that the benchmarks provide into sim-to-real generalization, and create a significant research gap. Furthermore, task fragmentation prevents unified/shared progress in the area, while limited data scales fail to meet the demands of modern LLM-based pretraining. To overcome these limitations, we introduce VLNVerse: a new large-scale, extensible benchmark designed for Versatile, Embodied, Realistic Simulation, and Evaluation. VLNVerse redefines VLN as a scalable, full-stack embodied AI problem. Its Versatile nature unifies previously fragmented tasks into a single framework and provides an extensible toolkit for researchers. Its Embodied design moves beyond intangible and teleporting "ghost" agents that support full-kinematics in a Realistic Simulation powered by a robust physics engine. We leverage the scale and diversity of VLNVerse to conduct a comprehensive Evaluation of existing methods, from classic models to MLLM-based agents. We also propose a novel unified multi-task model capable of addressing all tasks within the benchmark. VLNVerse aims to narrow the gap between simulated navigation and real-world generalization, providing the community with a vital tool to boost research towards scalable, general-purpose embodied locomotion agents.
- Abstract(参考訳): VLN(Vision-Language Navigation)の顕著な進歩にもかかわらず、既存のベンチマークは、単純な物理シミュレーションを備えた小さなデータセットに限られている。
これらの欠点は、ベンチマークがsim-to-realの一般化にもたらす洞察を制限し、大きな研究ギャップを生み出す。
さらに、タスクの断片化は領域の統一/共有の進行を妨げるが、制限されたデータスケールは現代のLCMベースの事前訓練の要求を満たすことができない。
VLNVerseはVersatile, Embodied, Realistic Simulation, and Evaluationのために設計された,大規模で拡張可能なベンチマークである。
VLNVerseは、スケーラブルでフルスタックのAI問題としてVLNを再定義する。
Versatileの性質は、以前は断片化されたタスクを単一のフレームワークに統合し、研究者に拡張可能なツールキットを提供する。
Embodiedのデザインは、堅牢な物理エンジンを動力とするリアルなシミュレーションにおいて、完全なキネマティクスをサポートする無形でテレポートの「ゴースト」エージェントを越えている。
我々はVLNVerseのスケールと多様性を活用し、古典的なモデルからMLLMベースのエージェントまで、既存の手法を包括的に評価する。
また、ベンチマーク内の全てのタスクに対処できる新しい統合マルチタスクモデルを提案する。
VLNVerseは、シミュレーションナビゲーションと現実世界の一般化のギャップを狭めることを目的としており、コミュニティにスケーラブルで汎用的な移動エージェントの研究を促進する重要なツールを提供する。
関連論文リスト
- LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities [56.68006021126077]
VLN-PEは、人間型、四足型、車輪型ロボットをサポートする物理的に現実的なVLNプラットフォームである。
われわれは,エゴ中心のVLN手法を,様々な技術パイプラインにまたがる物理ロボット設定において初めて評価した。
以上の結果から,ロボット観測空間の制限,環境光の変動,衝突や落下などの物理的課題による性能劣化が明らかとなった。
論文 参考訳(メタデータ) (2025-07-17T11:46:00Z) - HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions [64.69468932145234]
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans [2.940962519388297]
適応視覚言語ナビゲーション(Adaptive Visual Language Navigation, AdaVLN)と呼ばれるタスクの拡張を提案する。
AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をナビゲートするロボットを必要とする。
本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
論文 参考訳(メタデータ) (2024-11-27T17:36:08Z) - LocoMuJoCo: A Comprehensive Imitation Learning Benchmark for Locomotion [20.545058017790428]
模倣学習は、エンボディエージェントでアジャイルの移動を可能にするための大きな約束を持っています。
本稿では,ILアルゴリズムの厳密な評価と比較を容易にするための新しいベンチマークを提案する。
このベンチマークは四足歩行、二足歩行、筋骨格人体モデルを含む多様な環境を含む。
論文 参考訳(メタデータ) (2023-11-04T19:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。