Fugu-MT 論文翻訳(概要): Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous Environments

論文の概要: Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous Environments

arxiv url: http://arxiv.org/abs/2204.09667v1
Date: Wed, 20 Apr 2022 17:57:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-21 13:46:45.208528
Title: Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous Environments
Title（参考訳）: 連続環境における視覚・言語ナビゲーションのためのsim-2-sim転送
Authors: Jacob Krantz and Stefan Lee
Abstract要約: 本稿では, VLN の抽象環境から VLN-CE の連続環境へのエージェントの移動について述べる。この移行は非常に効果的であり,先行技術よりも+12%の成功率の向上が期待できる。このことは、この方向の可能性を示しているが、転送は抽象的な設定でエージェントの本来のパフォーマンスを完全に保持していない。
参考スコア（独自算出の注目度）: 22.884134539590868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work in Vision-and-Language Navigation (VLN) has presented two environmental paradigms with differing realism -- the standard VLN setting built on topological environments where navigation is abstracted away, and the VLN-CE setting where agents must navigate continuous 3D environments using low-level actions. Despite sharing the high-level task and even the underlying instruction-path data, performance on VLN-CE lags behind VLN significantly. In this work, we explore this gap by transferring an agent from the abstract environment of VLN to the continuous environment of VLN-CE. We find that this sim-2-sim transfer is highly effective, improving over the prior state of the art in VLN-CE by +12% success rate. While this demonstrates the potential for this direction, the transfer does not fully retain the original performance of the agent in the abstract setting. We present a sequence of experiments to identify what differences result in performance degradation, providing clear directions for further improvement.
Abstract（参考訳）: VLN(Vision-and-Language Navigation)の最近の研究は、ナビゲーションを抽象化するトポロジカル環境上に構築された標準的なVLN設定と、エージェントが低レベルなアクションを使用して連続的な3D環境をナビゲートしなければならないVLN-CEという2つの環境パラダイムを提示した。高レベルなタスクと基礎となる命令パスデータを共有するにもかかわらず、VLN-CEのパフォーマンスはVLNよりもかなり遅れている。本稿では, VLN の抽象環境から VLN-CE の連続環境へエージェントを移動させることにより, このギャップを解明する。このsim-2-simトランスファーは非常に効果的であり,VLN-CEの先行技術よりも+12%の成功率の向上が見られた。これはこの方向の可能性を示しているが、転送は抽象的な設定でエージェントの本来の性能を完全に保持していない。性能劣化の原因となる相違点を特定するための一連の実験を行い、さらなる改善に向けた明確な方向性を示す。

関連論文リスト

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:59Z)
World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。 VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文参考訳（メタデータ） (2024-12-09T11:40:54Z)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
Vision-Language Navigation with Continual Learning [10.850410419782424]
視覚言語ナビゲーション(VLN)は、組み込みインテリジェンスにおいて重要なドメインである。本稿では,この課題に対処するために,ビジョンランゲージナビゲーションと連続学習パラダイムを提案する。このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。
論文参考訳（メタデータ） (2024-09-04T09:28:48Z)
Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions [69.9980759344628]
Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。本稿では,人間の動的活動を取り入れ,従来のVLNを拡張したHuman-Aware Vision-and-Language Navigation (HA-VLN)を紹介する。本稿では, クロスモーダル融合と多種多様なトレーニング戦略を利用して, エキスパート・スーパーモーダル・クロスモーダル (VLN-CM) と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー (VLN-DT) のエージェントを提示する。
論文参考訳（メタデータ） (2024-06-27T15:01:42Z)
Continual Vision-and-Language Navigation [18.20829279972436]
VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、大きな制限をもたらす。本稿では,連続的な学習プロセスを通じて訓練されたエージェントを評価するために,CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-22T09:15:36Z)
ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文参考訳（メタデータ） (2022-10-18T17:45:06Z)
Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。近年の方法は、VLN剤の一般化を改善するための事前学習である。大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文参考訳（メタデータ） (2021-08-20T10:58:09Z)
Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。 VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文参考訳（メタデータ） (2020-05-06T19:24:33Z)
Environment-agnostic Multitask Learning for Natural Language Grounded Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文参考訳（メタデータ） (2020-03-01T09:06:31Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。