論文の概要: Prompt-Tuning Bandits: Enabling Few-Shot Generalization for Efficient Multi-Task Offline RL
- arxiv url: http://arxiv.org/abs/2502.06358v3
- Date: Fri, 18 Jul 2025 08:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 14:37:15.185226
- Title: Prompt-Tuning Bandits: Enabling Few-Shot Generalization for Efficient Multi-Task Offline RL
- Title(参考訳): Prompt-Tuning Bandits: 効率的なマルチタスクオフラインRLのためのFew-Shot Generalizationの実現
- Authors: Finn Rietz, Oleg Smirnov, Sara Karimi, Lele Cao,
- Abstract要約: 提案手法は,軽量で推論時,帯域幅に基づくプロンプトチューニングフレームワークである。
バンディットは、トランスフォーマーのバックボーンの微調整を犠牲にすることなく、作業性能を向上させるために軌道のプロンプト選択を探索し、最適化する。
実験の結果,バンディットに基づくプロンプトチューニングによる性能向上だけでなく,サンプルの複雑さ,拡張性,空間探索の迅速化などが示唆された。
- 参考スコア(独自算出の注目度): 2.6731152954002924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prompting has emerged as the dominant paradigm for adapting large, pre-trained transformer-based models to downstream tasks. The Prompting Decision Transformer (PDT) enables large-scale, multi-task offline Reinforcement Learning (RL) pre-training by leveraging stochastic trajectory prompts to identify the target task. However, these prompts are sampled uniformly from expert demonstrations, overlooking a critical limitation: not all prompts are equally informative for differentiating between tasks. This limits generalization and adaptation, especially in low-data or open-world settings where sample efficiency is crucial. To address this issue, we propose a lightweight, inference-time, bandit-based prompt-tuning framework. The bandit explores and optimizes trajectory prompt selection to enhance task performance, while avoiding costly fine-tuning of the transformer backbone. Our experiments indicate not only clear performance gains due to bandit-based prompt-tuning, but also better sample complexity, scalability, and prompt space exploration compared to prompt-tuning baselines. These results highlights the importance of adaptive prompt selection mechanisms for efficient generalization in offline multi-task RL.
- Abstract(参考訳): プロンプティングは、大規模で訓練済みのトランスフォーマーベースのモデルを下流タスクに適応するための支配的なパラダイムとして現れてきた。
Prompting Decision Transformer(PDT)は、確率的軌道プロンプトを利用して、大規模でマルチタスクのオフライン強化学習(RL)事前訓練を可能にする。
しかしながら、これらのプロンプトは専門家によるデモンストレーションから一様にサンプリングされ、臨界的な制限を見下ろしている。
これにより、特にサンプル効率が不可欠である低データやオープンワールドの設定において、一般化と適応が制限される。
この問題に対処するために、我々は軽量で推論時、帯域幅に基づくプロンプトチューニングフレームワークを提案する。
バンディットは、トランスフォーマーのバックボーンの微調整を犠牲にすることなく、作業性能を向上させるために軌道のプロンプト選択を探索し、最適化する。
実験の結果,バンディットベースのプロンプトチューニングによる明らかな性能向上だけでなく,サンプルの複雑さ,スケーラビリティ,空間探索の高速化などが示唆された。
これらの結果は、オフラインマルチタスクRLにおける効率的な一般化のための適応的なプロンプト選択機構の重要性を強調している。
関連論文リスト
- Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Enhancing Pre-Trained Decision Transformers with Prompt-Tuning Bandits [2.6731152954002924]
本稿では,高速なトラジェクトリ・プロンプトを構築するために,スケーラブルなバンディットベースのプロンプトチューニング手法を提案する。
我々の手法は、トレーニング済みのTransformerのバックボーンを変更することなく、ダウンストリームタスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-07T14:57:17Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - Bayesian Multi-Task Transfer Learning for Soft Prompt Tuning [44.43258626098661]
我々は、ソースタスクからトレーニングソースプロンプトを介して知識を抽出する場合、ソースタスク間の相関を考慮し、ターゲットタスクへのより良い転送を行う必要があると論じる。
本稿では,ソースタスク間のプロンプトの後方分布を扱うベイズ的手法を提案する。
ベイジアンマルチタスク変換学習手法は,多くの環境において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-13T16:57:02Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z) - On Transferability of Prompt Tuning for Natural Language Understanding [63.29235426932978]
タスクやモデル間でのソフトプロンプトの転送可能性について検討する。
訓練されたソフトプロンプトは、同様のタスクにうまく移行し、PTを初期化してトレーニングを加速し、パフォーマンスを向上させることができる。
以上の結果から,知識伝達によるPTの改善は可能で有望であり,プロンプトのクロスタスク転送性はクロスモデル転送性よりも良好であることが示唆された。
論文 参考訳(メタデータ) (2021-11-12T13:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。