論文の概要: Analyzing Generalization of Vision and Language Navigation to Unseen
Outdoor Areas
- arxiv url: http://arxiv.org/abs/2203.13838v1
- Date: Fri, 25 Mar 2022 18:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 12:18:52.570353
- Title: Analyzing Generalization of Vision and Language Navigation to Unseen
Outdoor Areas
- Title(参考訳): 外見のない地域への視覚と言語ナビゲーションの一般化分析
- Authors: Raphael Schumann and Stefan Riezler
- Abstract要約: 視覚と言語ナビゲーション(VLN)は、視覚的な言語理解の課題である。
室内のVLNとは対照的に、未確認データに対する屋外VLNの利得の大部分は、ジャンクション型埋め込みやデルタの向きといった特徴によるものである。
これらの結果は,VLNタスクの大規模化と地理的環境の多様性を要求され,都市環境のグラフ表現に偏っていることを示している。
- 参考スコア(独自算出の注目度): 19.353847681872608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and language navigation (VLN) is a challenging visually-grounded
language understanding task. Given a natural language navigation instruction, a
visual agent interacts with a graph-based environment equipped with panorama
images and tries to follow the described route. Most prior work has been
conducted in indoor scenarios where best results were obtained for navigation
on routes that are similar to the training routes, with sharp drops in
performance when testing on unseen environments. We focus on VLN in outdoor
scenarios and find that in contrast to indoor VLN, most of the gain in outdoor
VLN on unseen data is due to features like junction type embedding or heading
delta that are specific to the respective environment graph, while image
information plays a very minor role in generalizing VLN to unseen outdoor
areas. These findings show a bias to specifics of graph representations of
urban environments, demanding that VLN tasks grow in scale and diversity of
geographical environments.
- Abstract(参考訳): 視覚と言語ナビゲーション(VLN)は、視覚的な言語理解の課題である。
自然言語ナビゲーション命令が与えられると、ビジュアルエージェントはパノラマ画像を備えたグラフベースの環境と対話し、記述された経路に従おうとする。
事前の作業は、トレーニングルートに類似したルートのナビゲーションに最適な結果が得られた屋内シナリオで行われており、見えない環境でのテストではパフォーマンスが著しく低下している。
室内のVLNとは対照的に,室内のVLNは,各環境グラフに特有の接合型埋め込みや方向デルタといった特徴により,屋外のVLNの獲得に大きく寄与しているのに対し,画像情報は,VLNを未確認の屋外領域に一般化する上で非常に小さな役割を担っている。
これらの結果は都市環境のグラフ表現の具体化に偏りを示し,vlnタスクの大規模化と地理的環境の多様性を求めるものである。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation [15.628308089720269]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語コマンドを通じて複雑な視覚環境をナビゲートできるようにすることを目的としている。
本研究では,大規模な視覚言語モデルによって駆動される初の都市型UAV実施ナビゲーションモデルであるNavAgentを提案する。
我々は、きめ細かいランドマークを識別し、言語化できるランドマークの視覚認識器を構築した。
NavAgent-Landmark2Kは、ランドマークのための視覚認識装置を訓練するために、実際の街路シーンのための、最初のきめ細かいランドマークデータセットである。
論文 参考訳(メタデータ) (2024-11-13T12:51:49Z) - What Is Near?: Room Locality Learning for Enhanced Robot
Vision-Language-Navigation in Indoor Living Environments [9.181624273492828]
視覚言語ナビゲーション(VLN)タスクのための共通センス学習モデルWINを提案する。
WINは、居住空間の事前の知識と現在の観測に基づいて、周辺地域の地図を予測する。
そこで本研究では,地域知識に基づく地域空間計画と屋内レイアウトの予測により,エージェントが適切な行動を選択することができることを示す。
論文 参考訳(メタデータ) (2023-09-10T14:15:01Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Multimodal Text Style Transfer for Outdoor Vision-and-Language
Navigation [71.67507925788577]
本稿では,屋外ナビゲーションタスクのためのマルチモーダルテキストスタイル変換(MTST)学習手法を提案する。
まず、Google Maps APIで生成された命令のスタイルを転送し、拡張された外部ナビゲーションデータセットでナビゲータを事前訓練することで、ナビゲーションデータを強化します。
実験結果から, MTST学習手法はモデルに依存しないことが明らかとなり, MTSTアプローチは屋外VLNタスクのベースラインモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-01T04:29:07Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。