Fugu-MT 論文翻訳(概要): Vision-Language Navigation with Continual Learning

論文の概要: Vision-Language Navigation with Continual Learning

arxiv url: http://arxiv.org/abs/2409.02561v1
Date: Wed, 4 Sep 2024 09:28:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-05 19:30:37.199595
Title: Vision-Language Navigation with Continual Learning
Title（参考訳）: 連続学習による視覚言語ナビゲーション
Authors: Zhiyuan Li, Yanfeng Lv, Ziqin Tu, Di Shang, Hong Qiao,
Abstract要約: 視覚言語ナビゲーション(VLN)は、組み込みインテリジェンスにおいて重要なドメインである。本稿では,この課題に対処するために,ビジョンランゲージナビゲーションと連続学習パラダイムを提案する。このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。
参考スコア（独自算出の注目度）: 10.850410419782424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language navigation (VLN) is a critical domain within embedded intelligence, requiring agents to navigate 3D environments based on natural language instructions. Traditional VLN research has focused on improving environmental understanding and decision accuracy. However, these approaches often exhibit a significant performance gap when agents are deployed in novel environments, mainly due to the limited diversity of training data. Expanding datasets to cover a broader range of environments is impractical and costly. We propose the Vision-Language Navigation with Continual Learning (VLNCL) paradigm to address this challenge. In this paradigm, agents incrementally learn new environments while retaining previously acquired knowledge. VLNCL enables agents to maintain an environmental memory and extract relevant knowledge, allowing rapid adaptation to new environments while preserving existing information. We introduce a novel dual-loop scenario replay method (Dual-SR) inspired by brain memory replay mechanisms integrated with VLN agents. This method facilitates consolidating past experiences and enhances generalization across new tasks. By utilizing a multi-scenario memory buffer, the agent efficiently organizes and replays task memories, thereby bolstering its ability to adapt quickly to new environments and mitigating catastrophic forgetting. Our work pioneers continual learning in VLN agents, introducing a novel experimental setup and evaluation metrics. We demonstrate the effectiveness of our approach through extensive evaluations and establish a benchmark for the VLNCL paradigm. Comparative experiments with existing continual learning and VLN methods show significant improvements, achieving state-of-the-art performance in continual learning ability and highlighting the potential of our approach in enabling rapid adaptation while preserving prior knowledge.
Abstract（参考訳）: 視覚言語ナビゲーション(VLN)は組み込みインテリジェンスにおいて重要なドメインであり、エージェントは自然言語命令に基づいて3D環境をナビゲートする必要がある。従来のVLN研究は、環境理解と意思決定の精度の向上に重点を置いてきた。しかし、これらの手法は、エージェントが新しい環境にデプロイされる場合、主に訓練データの多様性が限られているため、大きなパフォーマンスギャップを生じることが多い。幅広い環境をカバーするためにデータセットを拡張することは非現実的でコストがかかる。本稿では、この課題に対処するために、VLNCL(Vision-Language Navigation with Continual Learning)パラダイムを提案する。このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。 VLNCLは、エージェントが環境記憶を維持し、関連する知識を抽出し、既存の情報を保持しながら、新しい環境への迅速な適応を可能にする。本稿では、VLNエージェントと統合された脳記憶リプレイ機構にインスパイアされた新しいデュアルループシナリオ・リプレイ法(Dual-SR)を提案する。この方法は過去の経験の統合を促進し、新しいタスクをまたいだ一般化を促進する。マルチシナリオメモリバッファを利用することで、エージェントはタスク記憶を効率的に整理、再生し、新しい環境に迅速に適応し、破滅的な忘れを緩和する能力を増強する。我々の研究は、VLNエージェントにおける継続的な学習の先駆者であり、新しい実験的なセットアップと評価指標を導入している。本稿では,VLNCLパラダイムのベンチマークの確立と評価を通じて,提案手法の有効性を実証する。既存の連続学習法とVLN法との比較実験により,先行知識を保ちながら迅速な適応を実現するためのアプローチの可能性を強調した。

関連論文リスト

Memory-enhanced Retrieval Augmentation for Long Video Understanding [57.371543819761555]
我々は,ヒトの認知記憶にインスパイアされた新しいRAGベースのLVUアプローチ,MemVidを紹介した。提案手法は,全体的映像情報の記憶,メモリに基づくタスクの情報要求の推論,情報要求に基づくクリティカルモーメントの検索,最終回答を生成するための検索モーメントの抽出という,4つの基本的なステップで機能する。
論文参考訳（メタデータ） (2025-03-12T08:23:32Z)
Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning [19.463863037999054]
我々は,学習エージェントが獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習の仕組みを考察する。オフラインデータからナビゲーション設定を継続学習するために設計された,新しい階層型フレームワークであるHiSPOを紹介する。本研究では,MuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証した。
論文参考訳（メタデータ） (2024-12-19T14:00:03Z)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。 Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。 Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文参考訳（メタデータ） (2024-10-03T17:58:11Z)
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T12:19:37Z)
OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文参考訳（メタデータ） (2024-03-26T02:34:48Z)
Continual Vision-and-Language Navigation [18.20829279972436]
VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、大きな制限をもたらす。本稿では,連続的な学習プロセスを通じて訓練されたエージェントを評価するために,CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-22T09:15:36Z)
TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文参考訳（メタデータ） (2024-03-13T05:22:39Z)
Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (2022-03-08T11:01:24Z)
SASRA: Semantically-aware Spatio-temporal Reasoning Agent for Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文参考訳（メタデータ） (2021-08-26T17:57:02Z)
Environment-agnostic Multitask Learning for Natural Language Grounded Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文参考訳（メタデータ） (2020-03-01T09:06:31Z)
Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文参考訳（メタデータ） (2020-02-25T03:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。