Fugu-MT 論文翻訳(概要): Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments

論文の概要: Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments

arxiv url: http://arxiv.org/abs/2301.04352v1
Date: Wed, 11 Jan 2023 08:04:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-12 14:28:31.237431
Title: Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments
Title（参考訳）: 連続環境における視覚・言語ナビゲーションのためのグラフベース環境表現
Authors: Ting Wang, Zongkai Wu, Feiyu Yao, Donglin Wang
Abstract要約: VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。上記の問題を解決するために,新しい環境表現を提案する。
参考スコア（独自算出の注目度）: 20.114506226598508
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-Language Navigation in Continuous Environments (VLN-CE) is a navigation task that requires an agent to follow a language instruction in a realistic environment. The understanding of environments is a crucial part of the VLN-CE task, but existing methods are relatively simple and direct in understanding the environment, without delving into the relationship between language instructions and visual environments. Therefore, we propose a new environment representation in order to solve the above problems. First, we propose an Environment Representation Graph (ERG) through object detection to express the environment in semantic level. This operation enhances the relationship between language and environment. Then, the relational representations of object-object, object-agent in ERG are learned through GCN, so as to obtain a continuous expression about ERG. Sequentially, we combine the ERG expression with object label embeddings to obtain the environment representation. Finally, a new cross-modal attention navigation framework is proposed, incorporating our environment representation and a special loss function dedicated to training ERG. Experimental result shows that our method achieves satisfactory performance in terms of success rate on VLN-CE tasks. Further analysis explains that our method attains better cross-modal matching and strong generalization ability.
Abstract（参考訳）: VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。環境の理解はvln-ceタスクの重要な部分であるが、既存の方法は言語命令と視覚環境の関係を考慮せずに、環境を理解するための比較的単純で直接的な方法である。そこで我々は,上記の問題を解決するために,新しい環境表現を提案する。まず,オブジェクト検出による環境表現グラフ(erg)を提案し,環境を意味レベルで表現する。この操作は言語と環境の関係を高める。次に、ERGにおけるオブジェクトオブジェクト、オブジェクトエージェントのリレーショナル表現をGCNを通して学習し、ERGに関する連続表現を得る。次に,ERG表現とオブジェクトラベルの埋め込みを組み合わせ,環境表現を得る。最後に,環境表現とerg訓練に特化した特殊損失関数を組み込んだ新しいクロスモーダルアテンションナビゲーションフレームワークを提案する。実験の結果, vln-ceタスクの成功率から, 良好な性能が得られることがわかった。さらなる分析により,本手法はより優れたクロスモーダルマッチングと強力な一般化能力が得られることが示された。

関連論文リスト

NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments [67.18144414660681]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、自然言語命令によって誘導される複雑な環境において、エージェントがシーケンシャルなナビゲーションアクションを実行する必要がある。人間の認知にインスパイアされたNavMorphは、VLN-CEタスクにおける環境理解と意思決定を強化する自己進化型世界モデルフレームワークである。
論文参考訳（メタデータ） (2025-06-30T02:20:00Z)
Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation [15.302043040651368]
自然言語の指示に基づいて見えない環境をナビゲートすることは、自我中心のエージェントにとって依然として困難である。多様な視点からエージェントが環境を接地することを奨励するために,多種多様なセマンティック理解と空間認識アーキテクチャを提案する。実験により、SUSAのハイブリッドセマンティック空間表現はナビゲーション性能を効果的に向上させることが示された。
論文参考訳（メタデータ） (2024-12-09T13:10:28Z)
Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。 Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文参考訳（メタデータ） (2024-09-04T08:30:03Z)
SituationalLLM: Proactive language models with scene awareness for dynamic, contextual task guidance [13.155859243167619]
本研究では,構造化シーン情報を大規模言語モデルに統合する新しいアプローチである PresentalLLM を提案する。カスタムのScene Graph Languageでオブジェクト、属性、関係をエンコードすることで、AciencealLLMは環境コンテキストのギャップを積極的に識別し、ユーザインタラクション中に明確化を求める。実験結果から、ALLLMはタスク特異性、信頼性、適応性において、ジェネリックLLMベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-06-19T07:42:48Z)
Enhancing Graph Representation of the Environment through Local and Cloud Computation [2.9465623430708905]
複数の情報源からロボット環境のセマンティックな表現を提供するグラフベースの表現を提案する。環境から情報を取得するために、このフレームワークは古典的なコンピュータビジョンツールと現代のコンピュータビジョンクラウドサービスを組み合わせる。提案手法により、小さなオブジェクトも処理し、環境の意味表現に統合することが可能になる。
論文参考訳（メタデータ） (2023-09-22T08:05:32Z)
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。 CLEAR: 言語横断表現と環境非依存表現を提案する。我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文参考訳（メタデータ） (2022-07-05T17:38:59Z)
Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (2022-03-08T11:01:24Z)
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-02-23T19:06:53Z)
SILG: The Multi-environment Symbolic Interactive Language Grounding Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。 SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。 SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文参考訳（メタデータ） (2021-10-20T17:02:06Z)
SASRA: Semantically-aware Spatio-temporal Reasoning Agent for Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文参考訳（メタデータ） (2021-08-26T17:57:02Z)
Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。 VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文参考訳（メタデータ） (2020-05-06T19:24:33Z)
Environment-agnostic Multitask Learning for Natural Language Grounded Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文参考訳（メタデータ） (2020-03-01T09:06:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。