論文の概要: Prompt Tuning Decision Transformers with Structured and Scalable Bandits
- arxiv url: http://arxiv.org/abs/2502.04979v3
- Date: Wed, 01 Oct 2025 17:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.50797
- Title: Prompt Tuning Decision Transformers with Structured and Scalable Bandits
- Title(参考訳): 構造及びスケーラブル帯域を有するプロンプトチューニング決定変換器
- Authors: Finn Rietz, Oleg Smirnov, Sara Karimi, Lele Cao,
- Abstract要約: 提案手法は,推定時刻における実演データから最適軌道プロンプトを構築することを学習するバンディットベースのプロンプトチューニング手法である。
提案手法は,幅広いタスク,高次元環境,アウト・オブ・ディストリビューションシナリオにまたがる性能を継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 4.460057058209513
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prompt tuning has emerged as a key technique for adapting large pre-trained Decision Transformers (DTs) in offline Reinforcement Learning (RL), particularly in multi-task and few-shot settings. The Prompting Decision Transformer (PDT) enables task generalization via trajectory prompts sampled uniformly from expert demonstrations -- without accounting for prompt informativeness. In this work, we propose a bandit-based prompt-tuning method that learns to construct optimal trajectory prompts from demonstration data at inference time. We devise a structured bandit architecture operating in the trajectory prompt space, achieving linear rather than combinatorial scaling with prompt size. Additionally, we show that the pre-trained PDT itself can serve as a powerful feature extractor for the bandit, enabling efficient reward modeling across various environments. We theoretically establish regret bounds and demonstrate empirically that our method consistently enhances performance across a wide range of tasks, high-dimensional environments, and out-of-distribution scenarios, outperforming existing baselines in prompt tuning.
- Abstract(参考訳): プロンプトチューニングは、特にマルチタスクおよび少数ショット設定において、オフライン強化学習(RL)において、大規模な事前訓練された決定変換器(DT)を適応するための重要なテクニックとして登場した。
Prompting Decision Transformer (PDT)は、専門家によるデモンストレーションから一様にサンプリングされたトラジェクトリプロンプトによるタスクの一般化を可能にする。
本研究では,実演データから最適軌道のプロンプトを推論時に構築することを学ぶバンディットベースのプロンプトチューニング手法を提案する。
本研究では, 軌道状プロンプト空間で動作する構造的バンディットアーキテクチャを考案し, 即時スケールではなく, 線形化を実現した。
さらに,事前学習したPDT自体が,バンドイットの強力な特徴抽出器として機能し,様々な環境において効率的な報酬モデリングを可能にすることを示す。
理論的には,提案手法が広範囲のタスク,高次元環境,および分布外のシナリオにおいて連続的に性能を向上し,即時チューニングにおいて既存のベースラインを上回る性能を発揮することを実証的に証明する。
関連論文リスト
- Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - Towards bandit-based prompt-tuning for in-the-wild foundation agents [2.6731152954002924]
本稿では,タスク性能を向上させるための推論時間帯域幅に基づくプロンプトチューニングフレームワークを提案する。
実験の結果,バンディットに基づくプロンプトチューニングによる性能向上だけでなく,サンプルの複雑さ,拡張性,空間探索の迅速化などが示唆された。
論文 参考訳(メタデータ) (2025-02-10T11:20:10Z) - Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner [12.360598915420255]
拡散モデルはマルチタスクの軌跡をモデル化する能力を示した。
既存のマルチタスクプランナやポリシーは、通常、マルチタスクの模倣によるタスク固有のデモンストレーションや、タスク固有の報酬ラベルを必要とする。
本稿では,タスク非依存の準最適軌道を含む大規模劣等データを活用する多目的拡散プランナを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:05:37Z) - Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。