Fugu-MT 論文翻訳(概要): Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions

論文の概要: Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions

arxiv url: http://arxiv.org/abs/2406.19236v3
Date: Sat, 02 Nov 2024 02:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.201247
Title: Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions
Title（参考訳）: ヒューマン・アウェア・ビジョン・アンド・ランゲージ・ナビゲーション:動的ヒューマンインタラクションによる現実感へのブリッジングシミュレーション
Authors: Heng Li, Minghan Li, Zhi-Qi Cheng, Yifei Dong, Yuxuan Zhou, Jun-Yan He, Qi Dai, Teruko Mitamura, Alexander G. Hauptmann,
Abstract要約: Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。本稿では,人間の動的活動を取り入れ,従来のVLNを拡張したHuman-Aware Vision-and-Language Navigation (HA-VLN)を紹介する。本稿では, クロスモーダル融合と多種多様なトレーニング戦略を利用して, エキスパート・スーパーモーダル・クロスモーダル (VLN-CM) と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー (VLN-DT) のエージェントを提示する。
参考スコア（独自算出の注目度）: 69.9980759344628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-Language Navigation (VLN) aims to develop embodied agents that navigate based on human instructions. However, current VLN frameworks often rely on static environments and optimal expert supervision, limiting their real-world applicability. To address this, we introduce Human-Aware Vision-and-Language Navigation (HA-VLN), extending traditional VLN by incorporating dynamic human activities and relaxing key assumptions. We propose the Human-Aware 3D (HA3D) simulator, which combines dynamic human activities with the Matterport3D dataset, and the Human-Aware Room-to-Room (HA-R2R) dataset, extending R2R with human activity descriptions. To tackle HA-VLN challenges, we present the Expert-Supervised Cross-Modal (VLN-CM) and Non-Expert-Supervised Decision Transformer (VLN-DT) agents, utilizing cross-modal fusion and diverse training strategies for effective navigation in dynamic human environments. A comprehensive evaluation, including metrics considering human activities, and systematic analysis of HA-VLN's unique challenges, underscores the need for further research to enhance HA-VLN agents' real-world robustness and adaptability. Ultimately, this work provides benchmarks and insights for future research on embodied AI and Sim2Real transfer, paving the way for more realistic and applicable VLN systems in human-populated environments.
Abstract（参考訳）: Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。しかしながら、現在のVLNフレームワークは静的環境と最適な専門家監督に依存しており、実際の適用性を制限する。そこで本研究では,ヒューマン・アウェア・ビジョン・アンド・ランゲージ・ナビゲーション(Human-Aware Vision-and-Language Navigation,HA-VLN)を導入する。本稿では,動的人間活動とMatterport3Dデータセットを組み合わせたHuman-Aware 3D (HA3D)シミュレータとHuman-Aware Room-to-Room (HA-R2R)データセットを提案する。 HA-VLNの課題に対処するために、動的人間環境における効果的なナビゲーションのためのクロスモーダル融合と多様なトレーニング戦略を利用して、エキスパート・スーパーモーダル(VLN-CM)と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー(VLN-DT)のエージェントを提示する。人的活動を考慮した指標やHA-VLNのユニークな課題の体系的な分析を含む包括的な評価は、HA-VLNエージェントの現実世界の堅牢性と適応性を高めるためのさらなる研究の必要性を浮き彫りにしている。最終的に、この研究は、人工AIとSim2Real転送に関する将来の研究のためのベンチマークと洞察を提供し、人間の人口の多い環境でより現実的で適用可能なVLNシステムを実現する。

関連論文リスト

HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard [63.54109142085327]
VLN(Vision-and-Language Navigation)システムは、離散(パノラマ)または連続(フリーモーション)のパラダイムのみに焦点を当てることが多い。我々は、これらのパラダイムを明示的な社会的認識制約の下でマージする統合されたヒューマン・アウェアVLNベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-18T13:05:55Z)
Integrating Personality into Digital Humans: A Review of LLM-Driven Approaches for Virtual Reality [37.69303106863453]
大型言語モデル(LLM)をバーチャルリアリティ(VR)環境に統合することで、より没入的でインタラクティブなデジタル人間を作るための新たな経路が開かれた。本稿では,デジタル人間によるニュアンスな人格特性の活用を可能にする手法を包括的に検討し,ゼロショット,少数ショット,微調整などのアプローチを探求する。計算要求、レイテンシの問題、マルチモーダルインタラクションのための標準化された評価フレームワークの欠如など、LCM駆動のパーソナリティ特性をVRに統合するという課題を強調している。
論文参考訳（メタデータ） (2025-02-22T01:33:05Z)
AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans [2.940962519388297]
適応視覚言語ナビゲーション(Adaptive Visual Language Navigation, AdaVLN)と呼ばれるタスクの拡張を提案する。 AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をナビゲートするロボットを必要とする。本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
論文参考訳（メタデータ） (2024-11-27T17:36:08Z)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation [38.04404612393027]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)により、エージェントは自然言語の指示に従って3D環境の遠隔地へ移動することができる。本研究では,パノラマ的トラバーサビリティ認識とパノラマ的セマンティック理解を備えた単分子ロボットを実現するためのシミュレート・トゥ・リアル・トランスファー手法を提案する。我々のVLNシステムはシミュレーション環境でR2R-CEとRxR-CEのベンチマークにおいて従来のSOTA単分子VLN法よりも優れており、実環境においても検証されている。
論文参考訳（メタデータ） (2024-06-14T07:50:09Z)
CoNav: A Benchmark for Human-Centered Collaborative Navigation [66.6268966718022]
協調ナビゲーション(CoNav)ベンチマークを提案する。われわれのCoNavは、現実的で多様な人間の活動を伴う3Dナビゲーション環境を構築するという重要な課題に取り組む。本研究では,長期的意図と短期的意図の両方を推論する意図認識エージェントを提案する。
論文参考訳（メタデータ） (2024-06-04T15:44:25Z)
HabiCrowd: A High Performance Simulator for Crowd-Aware Visual Navigation [8.484737966013059]
私たちは、クラウド対応ビジュアルナビゲーションのための最初の標準ベンチマークであるHabiCrowdを紹介します。提案する人間力学モデルは衝突回避における最先端性能を実現する。我々はHabiCrowdを利用して、クラウド対応視覚ナビゲーションタスクと人間とロボットのインタラクションに関する総合的な研究を行っている。
論文参考訳（メタデータ） (2023-06-20T08:36:08Z)
Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。近年の方法は、VLN剤の一般化を改善するための事前学習である。大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文参考訳（メタデータ） (2021-08-20T10:58:09Z)
BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments [70.18430114842094]
本稿では,シミュレーションにおける100のアクティビティを持つAIのベンチマークであるBEHAVIORを紹介する。これらの活動は現実的で多様性があり、複雑であるように設計されています。われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。
論文参考訳（メタデータ） (2021-08-06T23:36:23Z)
Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文参考訳（メタデータ） (2020-03-20T16:13:47Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。