論文の概要: Towards bandit-based prompt-tuning for in-the-wild foundation agents
- arxiv url: http://arxiv.org/abs/2502.06358v2
- Date: Tue, 11 Feb 2025 10:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:13.217288
- Title: Towards bandit-based prompt-tuning for in-the-wild foundation agents
- Title(参考訳): 帯域内ファウンデーションエージェントのバンディットに基づくプロンプトチューニングに向けて
- Authors: Finn Rietz, Oleg Smirnov, Sara Karimi, Lele Cao,
- Abstract要約: 本稿では,タスク性能を向上させるための推論時間帯域幅に基づくプロンプトチューニングフレームワークを提案する。
実験の結果,バンディットに基づくプロンプトチューニングによる性能向上だけでなく,サンプルの複雑さ,拡張性,空間探索の迅速化などが示唆された。
- 参考スコア(独自算出の注目度): 2.6731152954002924
- License:
- Abstract: Prompting has emerged as the dominant paradigm for adapting large, pre-trained transformer-based models to downstream tasks. The Prompting Decision Transformer (PDT) enables large-scale, multi-task offline reinforcement learning pre-training by leveraging stochastic trajectory prompts to identify the target task. However, these prompts are sampled uniformly from expert demonstrations, overlooking a critical limitation: Not all prompts are equally informative for differentiating between tasks. To address this, we propose an inference time bandit-based prompt-tuning framework that explores and optimizes trajectory prompt selection to enhance task performance. Our experiments indicate not only clear performance gains due to bandit-based prompt-tuning, but also better sample complexity, scalability, and prompt space exploration compared to prompt-tuning baselines.
- Abstract(参考訳): プロンプティングは、大規模で訓練済みのトランスフォーマーベースのモデルを下流タスクに適応するための支配的なパラダイムとして現れてきた。
Prompting Decision Transformer(PDT)は、確率的軌道プロンプトを利用して、大規模でマルチタスクのオフライン強化学習を事前訓練することを可能にする。
しかしながら、これらのプロンプトは専門家によるデモンストレーションから一様にサンプリングされ、臨界的な制限を見下ろしている。
そこで本研究では,タスク性能を向上させるために,トラジェクトリのプロンプト選択を探索し,最適化する,推論時間帯域幅に基づくプロンプトチューニングフレームワークを提案する。
実験の結果,バンディットベースのプロンプトチューニングによる性能向上だけでなく,サンプルの複雑さ,拡張性,空間探索の高速化などが示唆された。
関連論文リスト
- Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - Bayesian Multi-Task Transfer Learning for Soft Prompt Tuning [44.43258626098661]
我々は、ソースタスクからトレーニングソースプロンプトを介して知識を抽出する場合、ソースタスク間の相関を考慮し、ターゲットタスクへのより良い転送を行う必要があると論じる。
本稿では,ソースタスク間のプロンプトの後方分布を扱うベイズ的手法を提案する。
ベイジアンマルチタスク変換学習手法は,多くの環境において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-13T16:57:02Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - XPrompt: Exploring the Extreme of Prompt Tuning [31.242680485717447]
本稿では,宝くじの仮説の下で,eXtremely small scale (XPrompt) を用いた新しいPromptチューニングモデルを提案する。
XPromptは階層的な構造化プルーニングによって異なるレベルの負のプロンプトトークンを排除し、よりパラメータ効率のよいプロンプトを競合性能で得る。
論文 参考訳(メタデータ) (2022-10-10T06:57:19Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z) - On Transferability of Prompt Tuning for Natural Language Understanding [63.29235426932978]
タスクやモデル間でのソフトプロンプトの転送可能性について検討する。
訓練されたソフトプロンプトは、同様のタスクにうまく移行し、PTを初期化してトレーニングを加速し、パフォーマンスを向上させることができる。
以上の結果から,知識伝達によるPTの改善は可能で有望であり,プロンプトのクロスタスク転送性はクロスモデル転送性よりも良好であることが示唆された。
論文 参考訳(メタデータ) (2021-11-12T13:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。