論文の概要: HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions
- arxiv url: http://arxiv.org/abs/2503.14229v3
- Date: Thu, 09 Oct 2025 18:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.738997
- Title: HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions
- Title(参考訳): HA-VLN 2.0: 動的マルチヒューマンインタラクションによる離散・連続環境におけるヒューマン・アウェア・ナビゲーションのためのオープンベンチマークとリーダーボード
- Authors: Yifei Dong, Fengyi Wu, Qi He, Zhi-Qi Cheng, Heng Li, Minghan Li, Zebang Cheng, Yuxuan Zhou, Jingdong Sun, Qi Dai, Alexander G Hauptmann,
- Abstract要約: HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
- 参考スコア(独自算出の注目度): 64.69468932145234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) has been studied mainly in either discrete or continuous settings, with little attention to dynamic, crowded environments. We present HA-VLN 2.0, a unified benchmark introducing explicit social-awareness constraints. Our contributions are: (i) a standardized task and metrics capturing both goal accuracy and personal-space adherence; (ii) HAPS 2.0 dataset and simulators modeling multi-human interactions, outdoor contexts, and finer language-motion alignment; (iii) benchmarks on 16,844 socially grounded instructions, revealing sharp performance drops of leading agents under human dynamics and partial observability; and (iv) real-world robot experiments validating sim-to-real transfer, with an open leaderboard enabling transparent comparison. Results show that explicit social modeling improves navigation robustness and reduces collisions, underscoring the necessity of human-centric approaches. By releasing datasets, simulators, baselines, and protocols, HA-VLN 2.0 provides a strong foundation for safe, socially responsible navigation research.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は主に離散的または連続的な設定で研究されており、動的で混み合った環境にはほとんど注目されていない。
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
私たちの貢献は次のとおりです。
一 目標精度及び個人空間順守の両面を把握した標準化された課題及び指標
(二)マルチヒューマンインタラクション、屋外コンテキスト、言語・動きの微調整をモデル化したHAPS 2.0データセット及びシミュレータ
三 社会に根ざした指示16,844件のベンチマークにより、人体力学及び部分観測可能性の下でのリードエージェントの急激な性能低下を明らかにし、
(4) 実世界のロボット実験でシミュレート・トゥ・リアル・トランスファーが検証され、オープンなリーダーボードが透明な比較を可能にした。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を改善し、衝突を減らすことを示し、人間中心のアプローチの必要性を強調している。
データセット、シミュレータ、ベースライン、プロトコルをリリースすることにより、HA-VLN 2.0は安全で社会的に責任のあるナビゲーション研究のための強力な基盤を提供する。
関連論文リスト
- Integrating Personality into Digital Humans: A Review of LLM-Driven Approaches for Virtual Reality [37.69303106863453]
大型言語モデル(LLM)をバーチャルリアリティ(VR)環境に統合することで、より没入的でインタラクティブなデジタル人間を作るための新たな経路が開かれた。
本稿では,デジタル人間によるニュアンスな人格特性の活用を可能にする手法を包括的に検討し,ゼロショット,少数ショット,微調整などのアプローチを探求する。
計算要求、レイテンシの問題、マルチモーダルインタラクションのための標準化された評価フレームワークの欠如など、LCM駆動のパーソナリティ特性をVRに統合するという課題を強調している。
論文 参考訳(メタデータ) (2025-02-22T01:33:05Z) - Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。
Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。
そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文 参考訳(メタデータ) (2025-02-20T18:17:11Z) - AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans [2.940962519388297]
適応視覚言語ナビゲーション(Adaptive Visual Language Navigation, AdaVLN)と呼ばれるタスクの拡張を提案する。
AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をナビゲートするロボットを必要とする。
本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
論文 参考訳(メタデータ) (2024-11-27T17:36:08Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions [69.9980759344628]
Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。
本稿では,人間の動的活動を取り入れ,従来のVLNを拡張したHuman-Aware Vision-and-Language Navigation (HA-VLN)を紹介する。
本稿では, クロスモーダル融合と多種多様なトレーニング戦略を利用して, エキスパート・スーパーモーダル・クロスモーダル (VLN-CM) と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー (VLN-DT) のエージェントを提示する。
論文 参考訳(メタデータ) (2024-06-27T15:01:42Z) - HabiCrowd: A High Performance Simulator for Crowd-Aware Visual Navigation [8.484737966013059]
私たちは、クラウド対応ビジュアルナビゲーションのための最初の標準ベンチマークであるHabiCrowdを紹介します。
提案する人間力学モデルは衝突回避における最先端性能を実現する。
我々はHabiCrowdを利用して、クラウド対応視覚ナビゲーションタスクと人間とロボットのインタラクションに関する総合的な研究を行っている。
論文 参考訳(メタデータ) (2023-06-20T08:36:08Z) - BEHAVIOR: Benchmark for Everyday Household Activities in Virtual,
Interactive, and Ecological Environments [70.18430114842094]
本稿では,シミュレーションにおける100のアクティビティを持つAIのベンチマークであるBEHAVIORを紹介する。
これらの活動は現実的で多様性があり、複雑であるように設計されています。
われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。
論文 参考訳(メタデータ) (2021-08-06T23:36:23Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。