論文の概要: Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation
- arxiv url: http://arxiv.org/abs/2202.02440v1
- Date: Sat, 5 Feb 2022 00:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 13:42:10.916587
- Title: Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation
- Title(参考訳): ゼロエクスペリエンスが必要: セマンティックビジュアルナビゲーションのためのプラグアンドプレイモジュール転送学習
- Authors: Ziad Al-Halah, Santhosh K. Ramakrishnan, Kristen Grauman
- Abstract要約: 新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
- 参考スコア(独自算出の注目度): 97.17517060585875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning for visual navigation, it is common to develop a
model for each new task, and train that model from scratch with task-specific
interactions in 3D environments. However, this process is expensive; massive
amounts of interactions are needed for the model to generalize well. Moreover,
this process is repeated whenever there is a change in the task type or the
goal modality. We present a unified approach to visual navigation using a novel
modular transfer learning model. Our model can effectively leverage its
experience from one source task and apply it to multiple target tasks (e.g.,
ObjectNav, RoomNav, ViewNav) with various goal modalities (e.g., image, sketch,
audio, label). Furthermore, our model enables zero-shot experience learning,
whereby it can solve the target tasks without receiving any task-specific
interactive training. Our experiments on multiple photorealistic datasets and
challenging tasks show that our approach learns faster, generalizes better, and
outperforms SoTA models by a significant margin.
- Abstract(参考訳): 視覚ナビゲーションのための強化学習では、新しいタスクごとにモデルを開発し、3D環境におけるタスク固有のインタラクションをスクラッチからトレーニングすることが一般的である。
しかし、このプロセスは高価であり、モデルの一般化には大量の相互作用が必要である。
さらに、タスクタイプやゴールのモダリティが変更されると、このプロセスが繰り返されます。
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
私たちのモデルは、1つのソースタスクからの経験を効果的に活用し、様々な目標(画像、スケッチ、オーディオ、ラベルなど)を持つ複数のターゲットタスク(ObjectNav、RoomNav、ViewNavなど)に適用できます。
さらに,このモデルはゼロショット体験学習を可能にし,タスク固有のインタラクティブなトレーニングを受けずに対象タスクを解決できる。
複数のフォトリアリスティックなデータセットと挑戦的なタスクに関する実験は、我々のアプローチがより速く学習し、より一般化し、somaモデルを大きく上回ることを示している。
関連論文リスト
- LIMT: Language-Informed Multi-Task Visual World Models [6.128332310539627]
マルチタスク強化学習は、サンプルの複雑さの増加と、潜在的に矛盾するタスクの目的のため、非常に難しい。
本稿では,事前学習した言語モデルを利用して意味のあるタスク表現を抽出し,マルチタスクのビジュアルワールドモデルを学習する手法を提案する。
本結果は,世界モデルにおける言語駆動型タスク表現の利点と,より一般的なモデル自由パラダイムに対するモデルベースマルチタスク学習の明確な利点を強調した。
論文 参考訳(メタデータ) (2024-07-18T12:40:58Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。
スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。
我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-12-04T16:32:51Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。