論文の概要: Visual Perception Generalization for Vision-and-Language Navigation via
Meta-Learning
- arxiv url: http://arxiv.org/abs/2012.05446v3
- Date: Tue, 19 Jan 2021 02:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 23:26:51.889121
- Title: Visual Perception Generalization for Vision-and-Language Navigation via
Meta-Learning
- Title(参考訳): メタラーニングによる視覚・言語ナビゲーションのための視覚知覚一般化
- Authors: Ting Wang, Zongkai Wu, Donglin Wang
- Abstract要約: VLN(Vision-and-Language Navigation)は、自然言語の指示やリアルタイムで受信した視覚情報を理解することによって、エージェントが現実世界の環境をナビゲートする必要がある課題である。
本研究では、メタラーニングに基づく視覚認識一般化戦略を提案する。これにより、エージェントは数回のショットで新しいカメラ構成に迅速に適応することができる。
- 参考スコア(独自算出の注目度): 9.519596058757033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-language navigation (VLN) is a challenging task that requires an
agent to navigate in real-world environments by understanding natural language
instructions and visual information received in real-time. Prior works have
implemented VLN tasks on continuous environments or physical robots, all of
which use a fixed camera configuration due to the limitations of datasets, such
as 1.5 meters height, 90 degrees horizontal field of view (HFOV), etc. However,
real-life robots with different purposes have multiple camera configurations,
and the huge gap in visual information makes it difficult to directly transfer
the learned navigation model between various robots. In this paper, we propose
a visual perception generalization strategy based on meta-learning, which
enables the agent to fast adapt to a new camera configuration with a few shots.
In the training phase, we first locate the generalization problem to the visual
perception module, and then compare two meta-learning algorithms for better
generalization in seen and unseen environments. One of them uses the
Model-Agnostic Meta-Learning (MAML) algorithm that requires a few shot
adaptation, and the other refers to a metric-based meta-learning method with a
feature-wise affine transformation layer. The experiment results show that our
strategy successfully adapts the learned navigation model to a new camera
configuration, and the two algorithms show their advantages in seen and unseen
environments respectively.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、自然言語の指示やリアルタイムで受信した視覚情報を理解することによって、エージェントが現実世界の環境をナビゲートする必要がある課題である。
従来の作業では、1.5メートルの高さ、90度の水平視野(HFOV)など、データセットの制限により、固定されたカメラ構成を使用して、連続環境や物理的なロボット上でVLNタスクを実装していた。
しかし、目的の異なる現実のロボットは複数のカメラ構成を持ち、視覚情報のギャップが大きいため、学習したナビゲーションモデルを様々なロボット間で直接転送することは困難である。
本稿では,メタ学習に基づく視覚認識の一般化戦略を提案する。
学習段階では,まず視覚知覚モジュールに対する一般化問題を同定し,次に2つのメタ学習アルゴリズムを比較して,視聴覚および視聴覚環境における一般化を改善する。
そのうちの1つは、いくつかのショット適応を必要とするモデル非依存メタラーニング(MAML)アルゴリズムを使用し、もう1つは、機能的にアフィン変換層を持つメトリックベースのメタラーニング手法である。
実験の結果,本手法は学習したナビゲーションモデルを新しいカメラ構成に適応させることに成功し,この2つのアルゴリズムは目に見える環境と見えない環境においてそれぞれ優位性を示すことがわかった。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - LaViP:Language-Grounded Visual Prompts [27.57227844809257]
下流タスクに視覚言語モデルの視覚エンコーダを適応させるための言語基底型視覚プロンプト手法を提案する。
言語統合に乗じて、視覚エンコーダの入力を調整するためのパラメータ効率の戦略を考案する。
我々のアルゴリズムはブラックボックスのシナリオでも動作可能であり、モデルのパラメータへのアクセスが制約された状況において適応性を示す。
論文 参考訳(メタデータ) (2023-12-18T05:50:10Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - A Few Shot Adaptation of Visual Navigation Skills to New Observations
using Meta-Learning [12.771506155747893]
本稿では,新しいセンサ構成やターゲットオブジェクトへの迅速な適応を可能にする学習アルゴリズムを提案する。
実験の結果,学習したナビゲーションポリシーを,未知の状況に対してわずか3ショットで適用できることが判明した。
論文 参考訳(メタデータ) (2020-11-06T21:53:52Z) - MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。
MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文 参考訳(メタデータ) (2020-10-26T23:50:30Z) - Multimodal Aggregation Approach for Memory Vision-Voice Indoor
Navigation with Meta-Learning [5.448283690603358]
本稿では,新しい室内ナビゲーションモデルである Memory Vision-Voice Indoor Navigation (MVV-IN) を提案する。
MVV-INはロボットの環境理解を高めるために音声コマンドを受信し、視覚観察のマルチモーダル情報を分析する。
論文 参考訳(メタデータ) (2020-09-01T13:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。