Fugu-MT 論文翻訳(概要): Continual Vision-and-Language Navigation

論文の概要: Continual Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2403.15049v2
Date: Sat, 21 Dec 2024 09:05:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.517504
Title: Continual Vision-and-Language Navigation
Title（参考訳）: 連続的な視覚・言語ナビゲーション
Authors: Seongjun Jeong, Gi-Cheon Kang, Seongho Choi, Joochan Kim, Byoung-Tak Zhang,
Abstract要約: VLN(Vision-and-Language Navigation)エージェントは、自然言語命令とビジュアルキューを使用して目的地にナビゲートする。エージェントが絶えず学習し、変化する環境に適応するために、CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
参考スコア（独自算出の注目度）: 18.20829279972436
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In developing Vision-and-Language Navigation (VLN) agents that navigate to a destination using natural language instructions and visual cues, current studies largely assume a \textit{train-once-deploy-once strategy}. We argue that this kind of strategy is less realistic, as deployed VLN agents are expected to encounter novel environments continuously through their lifetime. To facilitate more realistic setting for VLN agents, we propose Continual Vision-and-Language Navigation (CVLN) paradigm for agents to continually learn and adapt to changing environments. In CVLN, the agents are trained and evaluated incrementally across multiple \textit{scene domains} (i.e., environments). We present two CVLN learning setups to consider diverse forms of natural language instructions: Initial-instruction based CVLN, focused on navigation via initial-instruction interpretation, and dialogue-based CVLN, designed for navigation through dialogue with other agents. We introduce two simple yet effective baseline methods, tailored to the sequential decision-making needs of CVLN: Perplexity Replay (PerpR) and Episodic Self-Replay (ESR), both employing a rehearsal mechanism. PerpR selects replay episodes based on episode difficulty, while ESR stores and revisits action logits from individual episode steps during training to refine learning. Experimental results indicate that while existing continual learning methods are insufficient for CVLN, PerpR and ESR outperform the comparison methods by effectively utilizing replay memory.
Abstract（参考訳）: VLN(Vision-and-Language Navigation, VLN)エージェントの開発において、自然言語命令と視覚的手がかりを用いて目的地へナビゲートする手法は、主に「textit{train-once-deploy-once strategy」を前提としている。デプロイされたVLNエージェントは、その生涯を通して新しい環境に遭遇することが期待されているため、このような戦略は現実的ではないと我々は主張する。 VLNエージェントのより現実的な設定を容易にするために,エージェントが継続的に学習し,変化する環境に適応するための連続的視覚・言語ナビゲーション(CVLN)パラダイムを提案する。 CVLN では、エージェントは複数の \textit{scene ドメイン(環境)で徐々に訓練され、評価される。本稿では,初期命令に基づくCVLNと,他エージェントとの対話によるナビゲーションを目的とした対話型CVLNという,多様な自然言語命令の形式を考慮したCVLN学習環境を提案する。 CVLNのシーケンシャルな意思決定ニーズに合わせた,単純かつ効果的な2つのベースライン手法,PerpR(Perplexity Replay)とEpsodic Self-Replay(Epsodic Self-Replay)を導入する。 PerpRはエピソードの難易度に基づいてリプレイエピソードを選択し、ESRはトレーニング中の個々のエピソードステップからのアクションログを保存し、再考する。実験結果から,既存の連続学習手法はCVLNでは不十分であるが,PerpRとESRはリプレイメモリを有効活用して比較法より優れていることがわかった。

関連論文リスト

Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文参考訳（メタデータ） (2025-03-23T13:18:17Z)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
Vision-Language Navigation with Continual Learning [10.850410419782424]
視覚言語ナビゲーション(VLN)は、組み込みインテリジェンスにおいて重要なドメインである。本稿では,この課題に対処するために,ビジョンランゲージナビゲーションと連続学習パラダイムを提案する。このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。
論文参考訳（メタデータ） (2024-09-04T09:28:48Z)
Vision-and-Language Navigation Generative Pretrained Transformer [0.0]
VLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer) トランスフォーマーデコーダモデル(GPT2)を採用してトラジェクトリシーケンスの依存関係をモデル化し、歴史的エンコーディングモジュールの必要性を回避している。 VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
論文参考訳（メタデータ） (2024-05-27T09:42:04Z)
Scaling Vision-and-Language Navigation With Offline RL [35.624579441774685]
本稿では,VLN-ORLの新しい問題設定について紹介する。本稿では,VLNエージェントを訓練するためのデータセットの最適度を考慮に入れた,単純かつ効果的な報酬条件付きアプローチを提案する。本実験は,提案手法が性能改善につながることを示すものである。
論文参考訳（メタデータ） (2024-03-27T11:13:20Z)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文参考訳（メタデータ） (2024-03-12T07:27:02Z)
Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文参考訳（メタデータ） (2024-02-05T00:48:56Z)
Prompt-based Context- and Domain-aware Pretraining for Vision and Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文参考訳（メタデータ） (2023-09-07T11:58:34Z)
Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文参考訳（メタデータ） (2022-09-10T19:04:40Z)
HOP: History-and-Order Aware Pre-training for Vision-and-Language Navigation [33.38079488853708]
以前のVision-and-Language Navigation (VLN)の事前トレーニング手法には、将来のアクションを予測する能力やコンテキストを無視する能力がない。本稿では,過去の観測を生かし,今後の行動予測を支援する新しい事前学習パラダイムを提案する。我々のナビゲーション行動予測は、歴史を伴う行動予測のタスクによって強化される。
論文参考訳（メタデータ） (2022-03-22T10:17:12Z)
Contrastive Instruction-Trajectory Learning for Vision-Language Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-08T06:32:52Z)
SASRA: Semantically-aware Spatio-temporal Reasoning Agent for Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文参考訳（メタデータ） (2021-08-26T17:57:02Z)
Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。近年の方法は、VLN剤の一般化を改善するための事前学習である。大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文参考訳（メタデータ） (2021-08-20T10:58:09Z)
Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文参考訳（メタデータ） (2020-02-25T03:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。