論文の概要: Graph based Environment Representation for Vision-and-Language
Navigation in Continuous Environments
- arxiv url: http://arxiv.org/abs/2301.04352v1
- Date: Wed, 11 Jan 2023 08:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:28:31.237431
- Title: Graph based Environment Representation for Vision-and-Language
Navigation in Continuous Environments
- Title(参考訳): 連続環境における視覚・言語ナビゲーションのためのグラフベース環境表現
- Authors: Ting Wang, Zongkai Wu, Feiyu Yao, Donglin Wang
- Abstract要約: VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。
上記の問題を解決するために,新しい環境表現を提案する。
- 参考スコア(独自算出の注目度): 20.114506226598508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation in Continuous Environments (VLN-CE) is a
navigation task that requires an agent to follow a language instruction in a
realistic environment. The understanding of environments is a crucial part of
the VLN-CE task, but existing methods are relatively simple and direct in
understanding the environment, without delving into the relationship between
language instructions and visual environments. Therefore, we propose a new
environment representation in order to solve the above problems. First, we
propose an Environment Representation Graph (ERG) through object detection to
express the environment in semantic level. This operation enhances the
relationship between language and environment. Then, the relational
representations of object-object, object-agent in ERG are learned through GCN,
so as to obtain a continuous expression about ERG. Sequentially, we combine the
ERG expression with object label embeddings to obtain the environment
representation. Finally, a new cross-modal attention navigation framework is
proposed, incorporating our environment representation and a special loss
function dedicated to training ERG. Experimental result shows that our method
achieves satisfactory performance in terms of success rate on VLN-CE tasks.
Further analysis explains that our method attains better cross-modal matching
and strong generalization ability.
- Abstract(参考訳): VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。
環境の理解はvln-ceタスクの重要な部分であるが、既存の方法は言語命令と視覚環境の関係を考慮せずに、環境を理解するための比較的単純で直接的な方法である。
そこで我々は,上記の問題を解決するために,新しい環境表現を提案する。
まず,オブジェクト検出による環境表現グラフ(erg)を提案し,環境を意味レベルで表現する。
この操作は言語と環境の関係を高める。
次に、ERGにおけるオブジェクトオブジェクト、オブジェクトエージェントのリレーショナル表現をGCNを通して学習し、ERGに関する連続表現を得る。
次に,ERG表現とオブジェクトラベルの埋め込みを組み合わせ,環境表現を得る。
最後に,環境表現とerg訓練に特化した特殊損失関数を組み込んだ新しいクロスモーダルアテンションナビゲーションフレームワークを提案する。
実験の結果, vln-ceタスクの成功率から, 良好な性能が得られることがわかった。
さらなる分析により,本手法はより優れたクロスモーダルマッチングと強力な一般化能力が得られることが示された。
関連論文リスト
- Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Enhancing Graph Representation of the Environment through Local and
Cloud Computation [2.9465623430708905]
複数の情報源からロボット環境のセマンティックな表現を提供するグラフベースの表現を提案する。
環境から情報を取得するために、このフレームワークは古典的なコンピュータビジョンツールと現代のコンピュータビジョンクラウドサービスを組み合わせる。
提案手法により、小さなオブジェクトも処理し、環境の意味表現に統合することが可能になる。
論文 参考訳(メタデータ) (2023-09-22T08:05:32Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - SILG: The Multi-environment Symbolic Interactive Language Grounding
Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。
SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。
SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文 参考訳(メタデータ) (2021-10-20T17:02:06Z) - SASRA: Semantically-aware Spatio-temporal Reasoning Agent for
Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。
既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。
本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文 参考訳(メタデータ) (2021-08-26T17:57:02Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。