論文の概要: In-Context Curiosity: Distilling Exploration for Decision-Pretrained Transformers on Bandit Tasks
- arxiv url: http://arxiv.org/abs/2510.00347v1
- Date: Tue, 30 Sep 2025 23:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.290753
- Title: In-Context Curiosity: Distilling Exploration for Decision-Pretrained Transformers on Bandit Tasks
- Title(参考訳): In-Context Curiosity:バンドタスクにおける決定調整型変圧器の探索
- Authors: Huitao Yang, Guanting Chen,
- Abstract要約: 予測パワー変換器(英: Prediction-Powered Transformer, PPT)は、オフライン事前学習のための軽量な探索型正規化器である。
PPTはDPTを補助的な報酬予測器で強化し、予測誤差を本質的な好奇心信号として使用して、トレーニング中の広範な探索を促進する。
予備的な結果は、好奇心駆動型プレトレーニングが、文脈内RLエージェントの分布外一般化を促進するための有望な方向を提供することを示唆している。
- 参考スコア(独自算出の注目度): 1.18482330187379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to grow in capability, there is increasing interest in incorporating them into decision-making tasks. A common pipeline for this is Decision-Pretrained Transformers (DPTs). However, existing training methods for DPTs often struggle to generalize beyond their pretraining data distribution. To explore mitigation of this limitation, we propose in-context curiosity -- a lightweight, exploration-inspired regularizer for offline pretraining -- and introduce the Prediction-Powered Transformer (PPT) framework. PPT augments DPT with an auxiliary reward predictor, using prediction error as an intrinsic curiosity signal to encourage broader exploration during training. In proof-of-concept experiments on Gaussian multi-armed bandits, PPT shows improved robustness: it moderates the performance degradation observed in DPT when test environments exhibit higher variance in reward, particularly when pretraining data has limited diversity. While the quality of offline data remain fundamental, our preliminary results suggest that curiosity-driven pretraining offers a promising direction for enhancing out-of-distribution generalization in in-context RL agents.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力向上が進むにつれ、意思決定タスクへの導入への関心が高まっている。
一般的なパイプラインはDPT(Decision-Pretrained Transformers)である。
しかし、既存のDPTのトレーニング手法は、事前学習したデータ分布を超える一般化に苦慮することが多い。
この制限を緩和するために、オフライン事前トレーニングのための軽量で探索にインスパイアされた正規化ツールであるインコンテキスト好奇性(in-context curiosity)を提案し、予測パワートランスフォーマー(PPT)フレームワークを導入している。
PPTはDPTを補助的な報酬予測器で強化し、予測誤差を本質的な好奇心信号として使用して、トレーニング中の広範な探索を促進する。
ガウスの多武装バンディットに関する概念実証実験において、PTTは堅牢性の向上を示し、特に事前学習データに多様性が制限されている場合、テスト環境が報酬のばらつきが高い場合に、DPTで観測される性能劣化を緩和する。
オフラインデータの質は依然として基本的だが、予備的な結果は、好奇心駆動型事前学習が、コンテキスト内RLエージェントにおける分布外一般化の促進に有望な方向性をもたらすことを示唆している。
関連論文リスト
- PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting [90.47748423913369]
最先端のモーション予測モデルは、手動で注釈を付けたり、非常に後処理されたトラジェクトリを備えた、大規模なキュレートされたデータセットに依存している。
PWTはシンプルでスケーラブルな代替手段で、市販の3D検出器とトラッキングから自動生成される、未処理で多様な軌道を使用する。
標準ベンチマーク、特に低データのレシエーション、クロスドメイン、エンドツーエンド、マルチクラスの設定において、強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-09T13:48:15Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Future-conditioned Unsupervised Pretraining for Decision Transformer [19.880628629512504]
我々は、教師なしRL事前学習のための概念的にシンプルなアプローチとして、事前学習型決定変換器(PDT)を提案する。
PDTは、訓練中の行動を予測するために、将来の軌跡情報を特権的な文脈として活用する。
オフラインデータから多様な振る舞いを抽出し、オンラインの微調整によってハイリターン動作を制御できる。
論文 参考訳(メタデータ) (2023-05-26T07:05:08Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。