Fugu-MT 論文翻訳(概要): Prompting Decision Transformer for Few-Shot Policy Generalization

論文の概要: Prompting Decision Transformer for Few-Shot Policy Generalization

arxiv url: http://arxiv.org/abs/2206.13499v1
Date: Mon, 27 Jun 2022 17:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-28 13:15:20.425384
Title: Prompting Decision Transformer for Few-Shot Policy Generalization
Title（参考訳）: Few-Shot Policy Generalizationのためのプロンプト決定変換器
Authors: Mengdi Xu, Yikang Shen, Shun Zhang, Yuchen Lu, Ding Zhao, Joshua B. Tenenbaum, Chuang Gan
Abstract要約: 本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。 Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
参考スコア（独自算出の注目度）: 98.0914217850999
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Humans can leverage prior experience and learn novel tasks from a handful of demonstrations. In contrast to offline meta-reinforcement learning, which aims to achieve quick adaptation through better algorithm design, we investigate the effect of architecture inductive bias on the few-shot learning capability. We propose a Prompt-based Decision Transformer (Prompt-DT), which leverages the sequential modeling ability of the Transformer architecture and the prompt framework to achieve few-shot adaptation in offline RL. We design the trajectory prompt, which contains segments of the few-shot demonstrations, and encodes task-specific information to guide policy generation. Our experiments in five MuJoCo control benchmarks show that Prompt-DT is a strong few-shot learner without any extra finetuning on unseen target tasks. Prompt-DT outperforms its variants and strong meta offline RL baselines by a large margin with a trajectory prompt containing only a few timesteps. Prompt-DT is also robust to prompt length changes and can generalize to out-of-distribution (OOD) environments.
Abstract（参考訳）: 人間は事前の経験を活用して、少数のデモンストレーションから新しいタスクを学ぶことができる。より優れたアルゴリズム設計による迅速な適応を目指すオフラインメタ強化学習とは対照的に,アーキテクチャ帰納バイアスが数ショット学習能力に与える影響について検討する。我々は,オフラインrlで少数ショット適応を実現するために,トランスフォーマーアーキテクチャの逐次モデリング能力とプロンプトフレームワークを活用するプロンプトベース決定トランスフォーマ(prompt-dt)を提案する。我々は,少数のデモのセグメントを含む軌道プロンプトを設計し,タスク固有の情報をエンコードしてポリシ生成を行う。 5つの MuJoCo 制御ベンチマークで行った実験から,Prompt-DT は未確認の目標タスクに余分な微調整を伴わない,強力な数発学習者であることがわかった。 Prompt-DTは、その変種と強力なメタオフラインRLベースラインを、わずかなタイムステップのみを含む軌道プロンプトで大きなマージンで上回る。 Prompt-DTは、長さの変化を促すためにも堅牢で、配布外環境(OOD)に一般化することができる。

関連論文リスト

IAP: Improving Continual Learning of Vision-Language Models via Instance-Aware Prompting [26.933544407933034]
我々は,MCIL(Multi-Domain Class-Incremental Learning)における多様なタスクの迅速な設計を最適化する課題に取り組む。我々の Instance-Aware Gated Prompting (IA-GP) モジュールは、忘れを軽減しつつ、新しいタスクへの適応を強化する。事例対応型クラス分散型プロンプト(IA-CDDP)は,各事例に対して正確なタスクラベル関連信頼スコアを決定することにより,タスク適応プロセスを改善する。
論文参考訳（メタデータ） (2025-03-26T14:59:23Z)
Towards bandit-based prompt-tuning for in-the-wild foundation agents [2.6731152954002924]
本稿では,タスク性能を向上させるための推論時間帯域幅に基づくプロンプトチューニングフレームワークを提案する。実験の結果,バンディットに基づくプロンプトチューニングによる性能向上だけでなく,サンプルの複雑さ,拡張性,空間探索の迅速化などが示唆された。
論文参考訳（メタデータ） (2025-02-10T11:20:10Z)
Enhancing Pre-Trained Decision Transformers with Prompt-Tuning Bandits [2.6731152954002924]
本稿では,高速なトラジェクトリ・プロンプトを構築するために,スケーラブルなバンディットベースのプロンプトチューニング手法を提案する。我々の手法は、トレーニング済みのTransformerのバックボーンを変更することなく、ダウンストリームタスクのパフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2025-02-07T14:57:17Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文参考訳（メタデータ） (2024-08-02T17:25:34Z)
PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文参考訳（メタデータ） (2024-07-04T10:37:58Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
P2DT: Mitigating Forgetting in task-incremental Learning with progressive prompt Decision Transformer [39.16560969128012]
破滅的な忘れ物は、大きなモデルによって制御される知的エージェントを管理する上で大きな課題となる。 P2DT(Progressive Prompt Decision Transformer)を提案する。この手法は,新しいタスクトレーニング中に動的に決定トークンを付加することにより,トランスフォーマーベースのモデルを強化し,タスク固有のポリシーを育成する。
論文参考訳（メタデータ） (2024-01-22T02:58:53Z)
Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文参考訳（メタデータ） (2023-05-16T17:49:04Z)
Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文参考訳（メタデータ） (2023-03-06T06:04:46Z)
TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文参考訳（メタデータ） (2022-11-21T22:38:20Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。