Fugu-MT 論文翻訳(概要): Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation

論文の概要: Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2202.11742v1
Date: Wed, 23 Feb 2022 19:06:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-25 16:58:19.789029
Title: Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation
Title（参考訳）: グローバル、act local: 視覚・言語ナビゲーションのためのデュアルスケールグラフトランスフォーマー
Authors: Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid and Ivan Laptev
Abstract要約: 本稿では,2次元グラフ変換器 (DUET) を提案する。我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
参考スコア（独自算出の注目度）: 87.03299519917019
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Following language instructions to navigate in unseen environments is a challenging problem for autonomous embodied agents. The agent not only needs to ground languages in visual scenes, but also should explore the environment to reach its target. In this work, we propose a dual-scale graph transformer (DUET) for joint long-term action planning and fine-grained cross-modal understanding. We build a topological map on-the-fly to enable efficient exploration in global action space. To balance the complexity of large action space reasoning and fine-grained language grounding, we dynamically combine a fine-scale encoding over local observations and a coarse-scale encoding on a global map via graph transformers. The proposed approach, DUET, significantly outperforms state-of-the-art methods on goal-oriented vision-and-language navigation (VLN) benchmarks REVERIE and SOON. It also improves the success rate on the fine-grained VLN benchmark R2R.
Abstract（参考訳）: 未知の環境をナビゲートするための言語指示に従うことは、自律型実施エージェントにとって難しい問題である。エージェントは、視覚的なシーンで言語を接地するだけでなく、ターゲットに到達するために環境を探索する必要がある。本研究では,長期行動計画と細粒度クロスモーダル理解のためのデュアルスケールグラフトランスフォーマタ(duet)を提案する。我々は,グローバルな活動空間における効率的な探索を可能にするために,オンザフライでトポロジカルマップを構築する。大規模な行動空間推論と細粒度言語基底の複雑さのバランスをとるために,局所的な観測を超越した微細エンコーディングと,グラフ変換器によるグローバルマップ上の粗大エンコーディングを動的に組み合わせる。提案手法であるDUETは、目標指向視覚言語ナビゲーション(VLN)ベンチマークのREVERIEとSOONにおいて、最先端の手法を著しく上回っている。また、詳細なVLNベンチマークR2Rの成功率も向上する。

関連論文リスト

EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。 CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-04-28T02:41:12Z)
Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T10:30:40Z)
Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。提案手法は,長期タスクにおける空間的推論と意思決定を促進する。実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文参考訳（メタデータ） (2025-02-20T04:41:40Z)
World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。 VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文参考訳（メタデータ） (2024-12-09T11:40:54Z)
NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation [15.628308089720269]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語コマンドを通じて複雑な視覚環境をナビゲートできるようにすることを目的としている。本研究では,大規模な視覚言語モデルによって駆動される初の都市型UAV実施ナビゲーションモデルであるNavAgentを提案する。我々は、きめ細かいランドマークを識別し、言語化できるランドマークの視覚認識器を構築した。 NavAgent-Landmark2Kは、ランドマークのための視覚認識装置を訓練するために、実際の街路シーンのための、最初のきめ細かいランドマークデータセットである。
論文参考訳（メタデータ） (2024-11-13T12:51:49Z)
Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。 Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文参考訳（メタデータ） (2024-09-04T08:30:03Z)
GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。 GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文参考訳（メタデータ） (2024-06-04T02:59:36Z)
Vision and Language Navigation in the Real World via Online Visual Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。実世界のVLN課題に対処する新しい枠組みを提案する。未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文参考訳（メタデータ） (2023-10-16T20:44:09Z)
LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文参考訳（メタデータ） (2023-10-11T20:52:30Z)
BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文参考訳（メタデータ） (2022-12-08T16:27:54Z)
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。 CLEAR: 言語横断表現と環境非依存表現を提案する。我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文参考訳（メタデータ） (2022-07-05T17:38:59Z)
Co-visual pattern augmented generative transformer learning for automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。 CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文参考訳（メタデータ） (2022-03-17T07:29:02Z)
Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。ナビゲーション中に知覚を正確に記憶できるほど区画化されている。また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文参考訳（メタデータ） (2021-03-05T03:41:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。