論文の概要: Prompting Decision Transformer for Few-Shot Policy Generalization
- arxiv url: http://arxiv.org/abs/2206.13499v1
- Date: Mon, 27 Jun 2022 17:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 13:15:20.425384
- Title: Prompting Decision Transformer for Few-Shot Policy Generalization
- Title(参考訳): Few-Shot Policy Generalizationのためのプロンプト決定変換器
- Authors: Mengdi Xu, Yikang Shen, Shun Zhang, Yuchen Lu, Ding Zhao, Joshua B.
Tenenbaum, Chuang Gan
- Abstract要約: 本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
- 参考スコア(独自算出の注目度): 98.0914217850999
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Humans can leverage prior experience and learn novel tasks from a handful of
demonstrations. In contrast to offline meta-reinforcement learning, which aims
to achieve quick adaptation through better algorithm design, we investigate the
effect of architecture inductive bias on the few-shot learning capability. We
propose a Prompt-based Decision Transformer (Prompt-DT), which leverages the
sequential modeling ability of the Transformer architecture and the prompt
framework to achieve few-shot adaptation in offline RL. We design the
trajectory prompt, which contains segments of the few-shot demonstrations, and
encodes task-specific information to guide policy generation. Our experiments
in five MuJoCo control benchmarks show that Prompt-DT is a strong few-shot
learner without any extra finetuning on unseen target tasks. Prompt-DT
outperforms its variants and strong meta offline RL baselines by a large margin
with a trajectory prompt containing only a few timesteps. Prompt-DT is also
robust to prompt length changes and can generalize to out-of-distribution (OOD)
environments.
- Abstract(参考訳): 人間は事前の経験を活用して、少数のデモンストレーションから新しいタスクを学ぶことができる。
より優れたアルゴリズム設計による迅速な適応を目指すオフラインメタ強化学習とは対照的に,アーキテクチャ帰納バイアスが数ショット学習能力に与える影響について検討する。
我々は,オフラインrlで少数ショット適応を実現するために,トランスフォーマーアーキテクチャの逐次モデリング能力とプロンプトフレームワークを活用するプロンプトベース決定トランスフォーマ(prompt-dt)を提案する。
我々は,少数のデモのセグメントを含む軌道プロンプトを設計し,タスク固有の情報をエンコードしてポリシ生成を行う。
5つの MuJoCo 制御ベンチマークで行った実験から,Prompt-DT は未確認の目標タスクに余分な微調整を伴わない,強力な数発学習者であることがわかった。
Prompt-DTは、その変種と強力なメタオフラインRLベースラインを、わずかなタイムステップのみを含む軌道プロンプトで大きなマージンで上回る。
Prompt-DTは、長さの変化を促すためにも堅牢で、配布外環境(OOD)に一般化することができる。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。
近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文 参考訳(メタデータ) (2024-07-04T10:37:58Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - P2DT: Mitigating Forgetting in task-incremental Learning with
progressive prompt Decision Transformer [39.16560969128012]
破滅的な忘れ物は、大きなモデルによって制御される知的エージェントを管理する上で大きな課題となる。
P2DT(Progressive Prompt Decision Transformer)を提案する。
この手法は,新しいタスクトレーニング中に動的に決定トークンを付加することにより,トランスフォーマーベースのモデルを強化し,タスク固有のポリシーを育成する。
論文 参考訳(メタデータ) (2024-01-22T02:58:53Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。