論文の概要: A Mixture-of-Experts Approach to Few-Shot Task Transfer in Open-Ended Text Worlds
- arxiv url: http://arxiv.org/abs/2405.06059v1
- Date: Thu, 9 May 2024 19:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 17:26:24.690709
- Title: A Mixture-of-Experts Approach to Few-Shot Task Transfer in Open-Ended Text Worlds
- Title(参考訳): オープンEnded Text WorldにおけるFew-Shotタスク転送のためのMixture-of-Expertsアプローチ
- Authors: Christopher Z. Cui, Xiangyu Peng, Mark O. Riedl,
- Abstract要約: そこで本研究では,様々なタスクに対するポリシーをMixture-of-Expertsモデルに組み込む新しい手法を提案する。
モデルは、凍結したタスク固有のエキスパートにいつ出席するかを適切に学習し、新しい状況を扱うための新しいエキスパートを学ぶ。
エージェントはゼロショット設定でより多くの報酬を得ることができ、これらの報奨は数ショットの学習環境においてより高いサンプル効率で得られることを示す。
- 参考スコア(独自算出の注目度): 21.261245985839434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-ended worlds are those in which there are no pre-specified goals or environmental reward signal. As a consequence, an agent must know how to perform a multitude of tasks. However, when a new task is presented to an agent, we expect it to be able to reuse some of what it knows from previous tasks to rapidly learn that new task. We introduce a novel technique whereby policies for different a priori known tasks are combined into a Mixture-of-Experts model with an attention mechanism across a mix of frozen and unfrozen experts. The model learns when to attend to frozen task-specific experts when appropriate and learns new experts to handle novel situations. We work in an open-ended text-based environment in which the agent is tasked with behaving like different types of character roles and must rapidly learn behaviors associated with new character role types. We show that our agent both obtains more rewards in the zero-shot setting, and discovers these rewards with greater sample efficiency in the few-shot learning settings.
- Abstract(参考訳): オープンエンドの世界は、事前に指定された目標や環境報酬の信号が存在しない世界である。
その結果、エージェントは複数のタスクを実行する方法を知っていなければならない。
しかし、エージェントに新しいタスクが提示されると、以前のタスクから知っていることを再利用して、その新しいタスクを迅速に学習できることを期待している。
凍結・凍結した専門家が混在する注意機構を持つMixture-of-Expertsモデルに、様々なタスクに対するポリシーを組み込む新しい手法を導入する。
モデルは、凍結したタスク固有のエキスパートにいつ出席するかを適切に学習し、新しい状況を扱うための新しいエキスパートを学ぶ。
我々は、エージェントが異なるタイプのキャラクタロールのように振舞うことを任務とし、新しいキャラクタロールタイプの振る舞いを迅速に学習する、オープンなテキストベースの環境で働く。
エージェントはゼロショット設定でより多くの報酬を得ることができ、これらの報奨は数ショットの学習環境においてより高いサンプル効率で得られることを示す。
関連論文リスト
- Bootstrap Your Own Skills: Learning to Solve New Tasks with Large
Language Model Guidance [66.615355754712]
BOSSが"スキルブートストラップ"を実行して新しいタスクを達成
LLM誘導型ブートストラップ法で訓練されたエージェントは,実生活環境における実測実験により,ナイーブなブートストラップ法で訓練されたエージェントよりも優れていた。
論文 参考訳(メタデータ) (2023-10-16T02:43:47Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Transferring Knowledge for Reinforcement Learning in Contact-Rich
Manipulation [10.219833196479142]
複数のスキルの前提を活かして、類似したタスクのファミリー内で知識を伝達するという課題に対処する。
提案手法は, 先行タスク毎の実証軌道から, スキル埋め込みを表す潜在行動空間を学習する。
我々は,ペグ・イン・ホール・イン・イン・イン・イン・イン・イン・イン・イン・イン・インサート・タスクのセットを用いて本手法の評価を行い,トレーニング中に遭遇したことのない新しいタスクへのより良い一般化を実証した。
論文 参考訳(メタデータ) (2022-09-19T10:31:13Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Skill Discovery of Coordination in Multi-agent Reinforcement Learning [41.67943127631515]
本稿では,複数のエージェントの協調パターンを識別する手法であるMASD(Multi-agent Skill Discovery)を提案する。
一般粒子マルチエージェント環境における協調のレベルにおける様々なスキルの出現を示す。
また,この「ボトルネック」は,一つのエージェントにスキルが崩壊するのを防ぎ,学習スキルの多様性を高めることも明らかにした。
論文 参考訳(メタデータ) (2020-06-07T02:04:15Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。