Fugu-MT 論文翻訳(概要): Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation

論文の概要: Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2406.09798v3
Date: Mon, 14 Oct 2024 04:48:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 13:34:35.997526
Title: Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation
Title（参考訳）: 視覚・言語ナビゲーションのための3次元特徴場による情報伝達
Authors: Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi Liu, Shuqiang Jiang,
Abstract要約: ヴィジュアル・アンド・ランゲージナビゲーション(VLN)により、エージェントは自然言語の指示に従って3D環境の遠隔地へ移動することができる。本研究では,パノラマ的トラバーサビリティ認識とパノラマ的セマンティック理解を備えた単分子ロボットを実現するためのシミュレート・トゥ・リアル・トランスファー手法を提案する。我々のVLNシステムはシミュレーション環境でR2R-CEとRxR-CEのベンチマークにおいて従来のSOTA単分子VLN法よりも優れており、実環境においても検証されている。
参考スコア（独自算出の注目度）: 38.04404612393027
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-language navigation (VLN) enables the agent to navigate to a remote location in 3D environments following the natural language instruction. In this field, the agent is usually trained and evaluated in the navigation simulators, lacking effective approaches for sim-to-real transfer. The VLN agents with only a monocular camera exhibit extremely limited performance, while the mainstream VLN models trained with panoramic observation, perform better but are difficult to deploy on most monocular robots. For this case, we propose a sim-to-real transfer approach to endow the monocular robots with panoramic traversability perception and panoramic semantic understanding, thus smoothly transferring the high-performance panoramic VLN models to the common monocular robots. In this work, the semantic traversable map is proposed to predict agent-centric navigable waypoints, and the novel view representations of these navigable waypoints are predicted through the 3D feature fields. These methods broaden the limited field of view of the monocular robots and significantly improve navigation performance in the real world. Our VLN system outperforms previous SOTA monocular VLN methods in R2R-CE and RxR-CE benchmarks within the simulation environments and is also validated in real-world environments, providing a practical and high-performance solution for real-world VLN.
Abstract（参考訳）: ヴィジュアル・アンド・ランゲージナビゲーション(VLN)により、エージェントは自然言語の指示に従って3D環境の遠隔地へ移動することができる。この分野では、エージェントは通常、ナビゲーションシミュレーターで訓練され、評価され、sim-to-realトランスファーの効果的なアプローチが欠如している。単眼カメラのみを搭載したVLNエージェントは非常に限られた性能を示し、パノラマ観察で訓練された主流のVLNモデルでは性能が向上するが、ほとんどの単眼ロボットでは展開が困難である。本稿では,パノラマ性知覚とパノラマ意味理解を両立させたモノクラーロボットを,高速パノラマVLNモデルを共通モノクラーロボットにスムーズに伝達するシミュレート・トゥ・リアル・トランスファー手法を提案する。本研究では,エージェント中心のナビゲーション可能な経路ポイントを予測するためにセマンティック・トラバーサブル・マップを提案し,これらナビゲーション可能な経路ポイントの新たなビュー表現を3次元特徴場を通して予測する。これらの手法はモノクラーロボットの視野を狭くし、現実のナビゲーション性能を大幅に向上させる。我々のVLNシステムは、シミュレーション環境におけるR2R-CEおよびRxR-CEベンチマークにおける従来のSOTA単分子VLN法よりも優れており、実環境においても検証されており、実環境のVLNに対して実用的で高性能なソリューションを提供する。

関連論文リスト

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文参考訳（メタデータ） (2026-03-05T17:02:22Z)
Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities [56.68006021126077]
VLN-PEは、人間型、四足型、車輪型ロボットをサポートする物理的に現実的なVLNプラットフォームである。われわれは,エゴ中心のVLN手法を,様々な技術パイプラインにまたがる物理ロボット設定において初めて評価した。以上の結果から,ロボット観測空間の制限,環境光の変動,衝突や落下などの物理的課題による性能劣化が明らかとなった。
論文参考訳（メタデータ） (2025-07-17T11:46:00Z)
SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments [7.251041314934871]
無人航空機(UAV)は、移動性と適応性によって、様々な分野にまたがって多用途のツールとして登場した。本稿では,複雑な都市環境下でのUAV自律性を高めるために,VLNとモデル予測制御(NMPC)を統合した新しいフレームワークであるSkyVLNを紹介する。
論文参考訳（メタデータ） (2025-07-09T05:38:32Z)
VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:59Z)
Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T10:30:40Z)
OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation [49.697035403548966]
Vision-Language Navigation (VLN)は、言語命令と視覚的手がかりを活用してエージェントを誘導することを目的としており、AIの具体化において重要な役割を果たす。各種レンダリングエンジン,多用途ツールチェーン,航空VLNの大規模ベンチマークからなるプラットフォームであるOpenFlyを提案する。我々は、100kの軌跡を持つ大規模な航空VLNデータセットを構築し、18のシーンにまたがる様々な高さと長さをカバーした。
論文参考訳（メタデータ） (2025-02-25T09:57:18Z)
AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans [2.940962519388297]
適応視覚言語ナビゲーション(Adaptive Visual Language Navigation, AdaVLN)と呼ばれるタスクの拡張を提案する。 AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をナビゲートするロボットを必要とする。本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
論文参考訳（メタデータ） (2024-11-27T17:36:08Z)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
Enhancing Autonomous Navigation by Imaging Hidden Objects using Single-Photon LiDAR [12.183773707869069]
単一光子LiDARを用いたNon-Line-of-Sight(NLOS)センシングによる視認性の向上と自律ナビゲーションの向上を目的とした新しいアプローチを提案する。本手法は,マルチバウンス光情報を利用することで,移動ロボットを「隅々まで見る」ことを可能にする。
論文参考訳（メタデータ） (2024-10-04T16:03:13Z)
Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions [69.9980759344628]
Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。本稿では,人間の動的活動を取り入れ,従来のVLNを拡張したHuman-Aware Vision-and-Language Navigation (HA-VLN)を紹介する。本稿では, クロスモーダル融合と多種多様なトレーニング戦略を利用して, エキスパート・スーパーモーダル・クロスモーダル (VLN-CM) と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー (VLN-DT) のエージェントを提示する。
論文参考訳（メタデータ） (2024-06-27T15:01:42Z)
Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文参考訳（メタデータ） (2024-06-21T13:48:37Z)
CityNav: A Large-Scale Dataset for Real-World Aerial Navigation [25.51740922661166]
航空VLNのための最初の大規模実世界のデータセットであるCityNavを紹介する。我々のデータセットは32,637人の実証軌道で構成されており、それぞれに自然言語の記述が組み合わされている。ナビゲーション中に補助的なモダリティ入力として使用できる地理意味マップを作成する方法を提案する。
論文参考訳（メタデータ） (2024-06-20T12:08:27Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
Image-based Navigation in Real-World Environments via Multiple Mid-level Representations: Fusion Models, Benchmark and Efficient Evaluation [13.207579081178716]
近年の学習に基づくナビゲーション手法では,エージェントのシーン理解とナビゲーション能力が同時に実現されている。残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。可能な解決策の1つは、シーンの重要なドメイン不変性を含む中間レベルの視覚表現を備えたナビゲーションモデルを提供することである。
論文参考訳（メタデータ） (2022-02-02T15:00:44Z)
On Embodied Visual Navigation in Real Environments Through Habitat [20.630139085937586]
ディープラーニングに基づくビジュアルナビゲーションモデルは、大量の視覚的観察に基づいてトレーニングされた場合、効果的なポリシーを学ぶことができる。この制限に対処するため、仮想環境における視覚ナビゲーションポリシーを効率的に訓練するためのシミュレーションプラットフォームがいくつか提案されている。本研究では,実世界の航法ピソードを走らせることなく,実世界の観測における航法方針の訓練と評価を効果的に行うことができることを示す。
論文参考訳（メタデータ） (2020-10-26T09:19:07Z)
Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文参考訳（メタデータ） (2020-04-28T08:15:35Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。