論文の概要: Prompting Decision Transformer for Few-Shot Policy Generalization
- arxiv url: http://arxiv.org/abs/2206.13499v1
- Date: Mon, 27 Jun 2022 17:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 13:15:20.425384
- Title: Prompting Decision Transformer for Few-Shot Policy Generalization
- Title(参考訳): Few-Shot Policy Generalizationのためのプロンプト決定変換器
- Authors: Mengdi Xu, Yikang Shen, Shun Zhang, Yuchen Lu, Ding Zhao, Joshua B.
Tenenbaum, Chuang Gan
- Abstract要約: 本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
- 参考スコア(独自算出の注目度): 98.0914217850999
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Humans can leverage prior experience and learn novel tasks from a handful of
demonstrations. In contrast to offline meta-reinforcement learning, which aims
to achieve quick adaptation through better algorithm design, we investigate the
effect of architecture inductive bias on the few-shot learning capability. We
propose a Prompt-based Decision Transformer (Prompt-DT), which leverages the
sequential modeling ability of the Transformer architecture and the prompt
framework to achieve few-shot adaptation in offline RL. We design the
trajectory prompt, which contains segments of the few-shot demonstrations, and
encodes task-specific information to guide policy generation. Our experiments
in five MuJoCo control benchmarks show that Prompt-DT is a strong few-shot
learner without any extra finetuning on unseen target tasks. Prompt-DT
outperforms its variants and strong meta offline RL baselines by a large margin
with a trajectory prompt containing only a few timesteps. Prompt-DT is also
robust to prompt length changes and can generalize to out-of-distribution (OOD)
environments.
- Abstract(参考訳): 人間は事前の経験を活用して、少数のデモンストレーションから新しいタスクを学ぶことができる。
より優れたアルゴリズム設計による迅速な適応を目指すオフラインメタ強化学習とは対照的に,アーキテクチャ帰納バイアスが数ショット学習能力に与える影響について検討する。
我々は,オフラインrlで少数ショット適応を実現するために,トランスフォーマーアーキテクチャの逐次モデリング能力とプロンプトフレームワークを活用するプロンプトベース決定トランスフォーマ(prompt-dt)を提案する。
我々は,少数のデモのセグメントを含む軌道プロンプトを設計し,タスク固有の情報をエンコードしてポリシ生成を行う。
5つの MuJoCo 制御ベンチマークで行った実験から,Prompt-DT は未確認の目標タスクに余分な微調整を伴わない,強力な数発学習者であることがわかった。
Prompt-DTは、その変種と強力なメタオフラインRLベースラインを、わずかなタイムステップのみを含む軌道プロンプトで大きなマージンで上回る。
Prompt-DTは、長さの変化を促すためにも堅牢で、配布外環境(OOD)に一般化することができる。
関連論文リスト
- P2DT: Mitigating Forgetting in task-incremental Learning with
progressive prompt Decision Transformer [39.16560969128012]
破滅的な忘れ物は、大きなモデルによって制御される知的エージェントを管理する上で大きな課題となる。
P2DT(Progressive Prompt Decision Transformer)を提案する。
この手法は,新しいタスクトレーニング中に動的に決定トークンを付加することにより,トランスフォーマーベースのモデルを強化し,タスク固有のポリシーを育成する。
論文 参考訳(メタデータ) (2024-01-22T02:58:53Z) - Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic
Specifications [22.407388715224283]
STL誘導型マルチエージェント強化学習フレームワークを提案する。
STL要求は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計され、STL仕様の値は、報酬を生成するために活用される。
論文 参考訳(メタデータ) (2023-06-11T23:53:29Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - Self-supervised Meta-Prompt Learning with Meta-Gradient Regularization
for Few-shot Generalization [40.45470744120691]
MEta-gradient regularization for few-shot generalization (SUPMER)による自己改善メタプロンプト学習フレームワーク
本稿では,Meta-gradient regularization for few-shot generalization (SUPMER)を用いた自己改善メタプロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-22T05:04:21Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - Making Pre-trained Language Models End-to-end Few-shot Learners with
Contrastive Prompt Tuning [41.15017636192417]
CP-Tuning(CP-Tuning)は、言語モデルのための最初のエンドツーエンドのPrompt Tuningフレームワークである。
完全にトレーニング可能なプロンプトパラメータを持つタスク不変の連続プロンプトエンコーディング技術と統合されている。
IRシステムや異なるPLMで使用される様々な言語理解タスクの実験は、CP-Tuningが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-04-01T02:24:24Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。