論文の概要: P2DT: Mitigating Forgetting in task-incremental Learning with
progressive prompt Decision Transformer
- arxiv url: http://arxiv.org/abs/2401.11666v1
- Date: Mon, 22 Jan 2024 02:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:22:51.937348
- Title: P2DT: Mitigating Forgetting in task-incremental Learning with
progressive prompt Decision Transformer
- Title(参考訳): p2dt:プログレッシブ・プロンプト・意思決定トランスフォーマーによるタスクインクリメンタル・ラーニングにおける忘れることの軽減
- Authors: Zhiyuan Wang, Xiaoyang Qu, Jing Xiao, Bokui Chen, Jianzong Wang
- Abstract要約: 破滅的な忘れ物は、大きなモデルによって制御される知的エージェントを管理する上で大きな課題となる。
P2DT(Progressive Prompt Decision Transformer)を提案する。
この手法は,新しいタスクトレーニング中に動的に決定トークンを付加することにより,トランスフォーマーベースのモデルを強化し,タスク固有のポリシーを育成する。
- 参考スコア(独自算出の注目度): 39.16560969128012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Catastrophic forgetting poses a substantial challenge for managing
intelligent agents controlled by a large model, causing performance degradation
when these agents face new tasks. In our work, we propose a novel solution -
the Progressive Prompt Decision Transformer (P2DT). This method enhances a
transformer-based model by dynamically appending decision tokens during new
task training, thus fostering task-specific policies. Our approach mitigates
forgetting in continual and offline reinforcement learning scenarios. Moreover,
P2DT leverages trajectories collected via traditional reinforcement learning
from all tasks and generates new task-specific tokens during training, thereby
retaining knowledge from previous studies. Preliminary results demonstrate that
our model effectively alleviates catastrophic forgetting and scales well with
increasing task environments.
- Abstract(参考訳): 破滅的な忘れは、大きなモデルによって制御されるインテリジェントエージェントを管理する上で大きな課題となり、これらのエージェントが新しいタスクに直面するとパフォーマンスが低下する。
本研究では,P2DT(Progressive Prompt Decision Transformer)を提案する。
本手法は,新しいタスクトレーニング中に動的に決定トークンを付加することにより,トランスフォーマーベースのモデルを強化する。
私たちのアプローチは、継続的およびオフラインの強化学習シナリオの忘れを緩和します。
さらに、P2DTは、従来の強化学習を通じて収集された軌道を利用して、トレーニング中に新しいタスク固有のトークンを生成し、従来の研究から知識を保持する。
予備的な結果は、我々のモデルは破滅的な忘れを効果的に軽減し、タスク環境の増大とともにスケールすることを示した。
関連論文リスト
- Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - Gradual Divergence for Seamless Adaptation: A Novel Domain Incremental Learning Method [19.751735234229972]
ドメイン・インクリメンタル・ラーニング(DIL)は現実世界のシナリオにおいて大きな課題となる。
モデルが新しいタスクに適応するにつれて、学習された表現が変化していく現象を模倣する表現ドリフトは、破滅的な忘れを和らげるのに役立つ。
本稿では,DAREと呼ばれる新しいDIL手法を提案する。
論文 参考訳(メタデータ) (2024-06-23T22:05:52Z) - Generalization to New Sequential Decision Making Tasks with In-Context
Learning [23.36106067650874]
少数のデモから新しいタスクを学習できる自律エージェントの訓練は、機械学習における長年の問題である。
本稿では,変換器を逐次決定問題に適用しても,新しいタスクの文脈内学習は不可能であることを示す。
我々は、異なる設計選択を調査し、より大きなモデルとデータセットサイズ、さらにタスクの多様性、環境、トラジェクトリのバーストネスが、新しいアウト・オブ・ディストリビューションタスクのコンテキスト内学習の改善をもたらすことを発見した。
論文 参考訳(メタデータ) (2023-12-06T15:19:28Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。