論文の概要: LIMT: Language-Informed Multi-Task Visual World Models
- arxiv url: http://arxiv.org/abs/2407.13466v1
- Date: Thu, 18 Jul 2024 12:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:20:54.717481
- Title: LIMT: Language-Informed Multi-Task Visual World Models
- Title(参考訳): LIMT: 言語によるマルチタスクビジュアルワールドモデル
- Authors: Elie Aljalbout, Nikolaos Sotirakis, Patrick van der Smagt, Maximilian Karl, Nutan Chen,
- Abstract要約: マルチタスク強化学習は、サンプルの複雑さの増加と、潜在的に矛盾するタスクの目的のため、非常に難しい。
本稿では,事前学習した言語モデルを利用して意味のあるタスク表現を抽出し,マルチタスクのビジュアルワールドモデルを学習する手法を提案する。
本結果は,世界モデルにおける言語駆動型タスク表現の利点と,より一般的なモデル自由パラダイムに対するモデルベースマルチタスク学習の明確な利点を強調した。
- 参考スコア(独自算出の注目度): 6.128332310539627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most recent successes in robot reinforcement learning involve learning a specialized single-task agent. However, robots capable of performing multiple tasks can be much more valuable in real-world applications. Multi-task reinforcement learning can be very challenging due to the increased sample complexity and the potentially conflicting task objectives. Previous work on this topic is dominated by model-free approaches. The latter can be very sample inefficient even when learning specialized single-task agents. In this work, we focus on model-based multi-task reinforcement learning. We propose a method for learning multi-task visual world models, leveraging pre-trained language models to extract semantically meaningful task representations. These representations are used by the world model and policy to reason about task similarity in dynamics and behavior. Our results highlight the benefits of using language-driven task representations for world models and a clear advantage of model-based multi-task learning over the more common model-free paradigm.
- Abstract(参考訳): 最近のロボット強化学習の成功には、特殊なシングルタスクエージェントの学習が含まれる。
しかし、複数のタスクを実行できるロボットは、現実世界のアプリケーションでははるかに価値がある。
マルチタスク強化学習は、サンプルの複雑さの増加と、潜在的に矛盾するタスクの目的のため、非常に難しい。
このトピックに関するこれまでの研究は、モデルなしのアプローチが支配的だった。
後者は、特殊なシングルタスクエージェントを学習しても、非常に非効率的である。
本研究では,モデルに基づくマルチタスク強化学習に焦点を当てた。
本稿では,事前学習した言語モデルを利用して意味のあるタスク表現を抽出し,マルチタスクのビジュアルワールドモデルを学習する手法を提案する。
これらの表現は、世界モデルと政策によって、動的および行動におけるタスクの類似性について推論するために使用される。
本結果は,世界モデルに言語駆動型タスク表現を用いることの利点と,より一般的なモデルフリーパラダイムに対するモデルベースマルチタスク学習の明確な利点を強調した。
関連論文リスト
- Deploying Multi-task Online Server with Large Language Model [9.118405878982383]
大規模言語モデルのための3段階のマルチタスク学習フレームワークを提案する。
タスクフィルタリング、続いて高リソースタスクの微調整、最後にすべてのタスクの微調整を行う。
我々のアプローチは、異なるベンチマークで例示され、最大90.9%のオーバーヘッドを削減しつつ、シングルタスク方式に匹敵するパフォーマンスを実現することができることを示した。
論文 参考訳(メタデータ) (2024-11-06T03:48:41Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Design Perspectives of Multitask Deep Learning Models and Applications [1.3701366534590496]
マルチタスク学習はモデルをさらに一般化することができた。
我々は,関連するタスク間で機能を共有することで,マルチタスクモデルの特徴マッピングを強化することを試みる。
また,マルチタスク学習のメリットを享受するために,タスク間のタスク関係を学習することに関心がある。
論文 参考訳(メタデータ) (2022-09-27T15:04:31Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z) - Boosting a Model Zoo for Multi-Task and Continual Learning [15.110807414130923]
モデル動物園」はモデルのアンサンブルを構築するアルゴリズムであり、それぞれが非常に小さく、小さなタスクセットで訓練されている。
モデルZooは,マルチタスクおよび連続学習における最先端手法と比較して,予測精度が大きく向上する。
論文 参考訳(メタデータ) (2021-06-06T04:25:09Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。