論文の概要: Continual Task Allocation in Meta-Policy Network via Sparse Prompting
- arxiv url: http://arxiv.org/abs/2305.18444v2
- Date: Sat, 3 Jun 2023 16:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 00:29:49.061986
- Title: Continual Task Allocation in Meta-Policy Network via Sparse Prompting
- Title(参考訳): スパースプロンプティングによるメタポリティネットワークにおける連続タスク割り当て
- Authors: Yijun Yang, Tianyi Zhou, Jing Jiang, Guodong Long, Yuhui Shi
- Abstract要約: タスクの連続を継続的に学習することで、一般化可能なメタ政治の訓練方法を示す。
スパース・プロンプティング(CoTASP)による連続タスク割当(Continual Task Allocation)"で対処する。
実験では、CoTASPは過去のタスクの経験を保存または再生することなく、有望な可塑性-安定性トレードオフを達成する。
- 参考スコア(独自算出の注目度): 42.386912478509814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to train a generalizable meta-policy by continually learning a sequence
of tasks? It is a natural human skill yet challenging to achieve by current
reinforcement learning: the agent is expected to quickly adapt to new tasks
(plasticity) meanwhile retaining the common knowledge from previous tasks
(stability). We address it by "Continual Task Allocation via Sparse Prompting
(CoTASP)", which learns over-complete dictionaries to produce sparse masks as
prompts extracting a sub-network for each task from a meta-policy network.
CoTASP trains a policy for each task by optimizing the prompts and the
sub-network weights alternatively. The dictionary is then updated to align the
optimized prompts with tasks' embedding, thereby capturing tasks' semantic
correlations. Hence, relevant tasks share more neurons in the meta-policy
network due to similar prompts while cross-task interference causing forgetting
is effectively restrained. Given a meta-policy and dictionaries trained on
previous tasks, new task adaptation reduces to highly efficient sparse
prompting and sub-network finetuning. In experiments, CoTASP achieves a
promising plasticity-stability trade-off without storing or replaying any past
tasks' experiences. It outperforms existing continual and multi-task RL methods
on all seen tasks, forgetting reduction, and generalization to unseen tasks.
- Abstract(参考訳): タスクのシーケンスを継続的に学習することで、一般化可能なメタポリシーをトレーニングする方法?
エージェントは、以前のタスク(安定性)からの共通知識を維持しながら、新しいタスク(塑性)に迅速に適応することが期待されている。
本稿では,スパース・プロンプティング(CoTASP)によるタスク・アロケーション(Continual Task Allocation via Sparse Prompting, 連続タスク・アロケーション)を用いて,メタ政治ネットワークから各タスクのサブネットワークを抽出するプロンプトとして,スパース・マスクを生成するための過剰な辞書を学習する。
CoTASPは、プロンプトとサブネットワークウェイトを最適化することで、各タスクのポリシーをトレーニングする。
辞書は、最適化されたプロンプトをタスクの埋め込みに合わせるように更新され、タスクの意味的相関をキャプチャする。
したがって、関連するタスクは、同様のプロンプトによってメタポリケーションネットワーク内のニューロンを多く共有する一方、タスク間の干渉によって忘れることが効果的に抑制される。
従来のタスクで訓練されたメタ政治と辞書を考えると、新しいタスク適応は高度に効率的なスパースプロンプトとサブネットワークファインタニングに還元される。
実験では、CoTASPは過去のタスクの経験を保存または再生することなく、有望な可塑性-安定性トレードオフを達成する。
既存の連続RL法やマルチタスクRL法よりも優れており、可視タスクへの一般化や削減を忘れている。
関連論文リスト
- Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - Robust Subtask Learning for Compositional Generalization [20.54144051436337]
我々は、どんなタスクでも実行できるように、サブタスクポリシーをトレーニングする問題に焦点を合わせます。
我々は、平均的なケースのパフォーマンスとは対照的に、すべてのタスクで最悪のケースのパフォーマンスを最大化することを目指している。
論文 参考訳(メタデータ) (2023-02-06T18:19:25Z) - TaskMix: Data Augmentation for Meta-Learning of Spoken Intent
Understanding [0.0]
本稿では,タスクの多様性が低い場合のオーバーフィッティングという問題を,最先端のデータ拡張手法により悪化させることを示す。
本稿では,既存のタスクを線形に補間することで,新しいタスクを合成する簡単なTaskMixを提案する。
TaskMixはベースラインを上回り、タスクの多様性が低い場合の過度な適合を軽減し、高い場合でも性能が低下しないことを示す。
論文 参考訳(メタデータ) (2022-09-26T00:37:40Z) - Improving Task Generalization via Unified Schema Prompt [87.31158568180514]
Unified Promptはフレキシブルでプロンプトの手法で、タスク入力スキーマに従って各タスクの学習可能なプロンプトを自動的にカスタマイズする。
異なるタスクスキーマの特徴を維持しながら、タスク間の共有知識をモデル化する。
このフレームワークは、8つのタスクタイプから下流に見えない16のタスクに対して、強力なゼロショットと少数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-05T15:26:36Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - CoMPS: Continual Meta Policy Search [113.33157585319906]
逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。
CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の継続的な学習や外部のメタ強化手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-12-08T18:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。