論文の概要: AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans
- arxiv url: http://arxiv.org/abs/2411.18539v1
- Date: Wed, 27 Nov 2024 17:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:25:28.096310
- Title: AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans
- Title(参考訳): AdaVLN:人間が動く連続環境における視覚言語ナビゲーションを目指して
- Authors: Dillon Loh, Tomasz Bednarz, Xinxing Xia, Frank Guan,
- Abstract要約: 適応視覚言語ナビゲーション(Adaptive Visual Language Navigation, AdaVLN)と呼ばれるタスクの拡張を提案する。
AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をナビゲートするロボットを必要とする。
本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
- 参考スコア(独自算出の注目度): 2.940962519388297
- License:
- Abstract: Visual Language Navigation is a task that challenges robots to navigate in realistic environments based on natural language instructions. While previous research has largely focused on static settings, real-world navigation must often contend with dynamic human obstacles. Hence, we propose an extension to the task, termed Adaptive Visual Language Navigation (AdaVLN), which seeks to narrow this gap. AdaVLN requires robots to navigate complex 3D indoor environments populated with dynamically moving human obstacles, adding a layer of complexity to navigation tasks that mimic the real-world. To support exploration of this task, we also present AdaVLN simulator and AdaR2R datasets. The AdaVLN simulator enables easy inclusion of fully animated human models directly into common datasets like Matterport3D. We also introduce a "freeze-time" mechanism for both the navigation task and simulator, which pauses world state updates during agent inference, enabling fair comparisons and experimental reproducibility across different hardware. We evaluate several baseline models on this task, analyze the unique challenges introduced by AdaVLN, and demonstrate its potential to bridge the sim-to-real gap in VLN research.
- Abstract(参考訳): Visual Language Navigationは、自然言語の指示に基づいて、ロボットが現実的な環境をナビゲートするタスクである。
これまでの研究は主に静的な設定に焦点を当ててきたが、現実のナビゲーションは、しばしば人間の動的な障害と競合しなければならない。
そこで我々は,AdaVLN(Adaptive Visual Language Navigation)と呼ばれるタスクの拡張を提案する。
AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をロボットでナビゲートする必要がある。
このタスクの探索を支援するため、AdaVLNシミュレータとAdaR2Rデータセットも提示する。
AdaVLNシミュレータは、完全にアニメーションされた人間のモデルをMatterport3Dのような一般的なデータセットに直接組み込むことができる。
また、ナビゲーションタスクとシミュレータの両方に対して「フリーズタイム」機構を導入し、エージェント推論中に世界状態の更新を一時停止し、公正な比較と異なるハードウェア間での実験的再現性を実現する。
本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions [69.9980759344628]
Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。
本稿では,人間の動的活動を取り入れ,従来のVLNを拡張したHuman-Aware Vision-and-Language Navigation (HA-VLN)を紹介する。
本稿では, クロスモーダル融合と多種多様なトレーニング戦略を利用して, エキスパート・スーパーモーダル・クロスモーダル (VLN-CM) と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー (VLN-DT) のエージェントを提示する。
論文 参考訳(メタデータ) (2024-06-27T15:01:42Z) - AerialVLN: Vision-and-Language Navigation for UAVs [23.40363176320464]
AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
論文 参考訳(メタデータ) (2023-08-13T09:55:04Z) - HabiCrowd: A High Performance Simulator for Crowd-Aware Visual Navigation [8.484737966013059]
私たちは、クラウド対応ビジュアルナビゲーションのための最初の標準ベンチマークであるHabiCrowdを紹介します。
提案する人間力学モデルは衝突回避における最先端性能を実現する。
我々はHabiCrowdを利用して、クラウド対応視覚ナビゲーションタスクと人間とロボットのインタラクションに関する総合的な研究を行っている。
論文 参考訳(メタデータ) (2023-06-20T08:36:08Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - N$^2$M$^2$: Learning Navigation for Arbitrary Mobile Manipulation
Motions in Unseen and Dynamic Environments [9.079709086741987]
モバイル操作のためのニューラルナビゲーション(N$2$M$2$)を導入する。
結果として生じるアプローチは、動的障害物や環境変化に即座に反応しながら、探索されていない環境で、目に見えない、長い水平タスクを実行することができる。
提案手法は,複数の運動学的に多様な移動マニピュレータ上での広範囲なシミュレーションおよび実世界の実験において有効であることを示す。
論文 参考訳(メタデータ) (2022-06-17T12:52:41Z) - Image-based Navigation in Real-World Environments via Multiple Mid-level
Representations: Fusion Models, Benchmark and Efficient Evaluation [13.207579081178716]
近年の学習に基づくナビゲーション手法では,エージェントのシーン理解とナビゲーション能力が同時に実現されている。
残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。
可能な解決策の1つは、シーンの重要なドメイン不変性を含む中間レベルの視覚表現を備えたナビゲーションモデルを提供することである。
論文 参考訳(メタデータ) (2022-02-02T15:00:44Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。