論文の概要: Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning
- arxiv url: http://arxiv.org/abs/2406.05064v2
- Date: Thu, 06 Mar 2025 23:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:21:49.681748
- Title: Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning
- Title(参考訳): In-Context Multi-task Structured Bandit Learning のための逆予測付き事前決定変換器
- Authors: Subhojyoti Mukherjee, Josiah P. Hanna, Qiaomin Xie, Robert Nowak,
- Abstract要約: マルチタスク構造化バンディット問題の学習について検討する。
目的は、累積的後悔を最小限に抑える、ほぼ最適アルゴリズムを学ぶことである。
我々は、この共有構造をデモンストレーターが収集したデータから学習するために、トランスフォーマーを意思決定アルゴリズムとして利用する。
- 参考スコア(独自算出の注目度): 12.608461657195367
- License:
- Abstract: We study learning to learn for the multi-task structured bandit problem where the goal is to learn a near-optimal algorithm that minimizes cumulative regret. The tasks share a common structure and an algorithm should exploit the shared structure to minimize the cumulative regret for an unseen but related test task. We use a transformer as a decision-making algorithm to learn this shared structure from data collected by a demonstrator on a set of training task instances. Our objective is to devise a training procedure such that the transformer will learn to outperform the demonstrator's learning algorithm on unseen test task instances. Prior work on pretraining decision transformers either requires privileged information like access to optimal arms or cannot outperform the demonstrator. Going beyond these approaches, we introduce a pre-training approach that trains a transformer network to learn a near-optimal policy in-context. This approach leverages the shared structure across tasks, does not require access to optimal actions, and can outperform the demonstrator. We validate these claims over a wide variety of structured bandit problems to show that our proposed solution is general and can quickly identify expected rewards on unseen test tasks to support effective exploration.
- Abstract(参考訳): 我々は,累積的後悔を最小限に抑える準最適アルゴリズムの学習を目標とするマルチタスク構造化バンディット問題の学習について研究する。
タスクは共通の構造を共有し、アルゴリズムは共有構造を利用して、目に見えないが関連するテストタスクに対する累積的後悔を最小限にする。
我々は、この共有構造を、トレーニングタスクの一連のインスタンス上で、実証者によって収集されたデータから学習するために、トランスフォーマーを意思決定アルゴリズムとして使用する。
我々の目的は,変圧器が未知のテストタスクインスタンス上で,実証者の学習アルゴリズムより優れていることを学習する訓練手順を考案することである。
事前訓練を行う前に、決定変換器は最適な武器へのアクセスのような特権的な情報を必要とするか、またはデモを上回ることができない。
これらのアプローチを超越して、変換器ネットワークをトレーニングし、ほぼ最適ポリシーをコンテキスト内で学習する事前学習アプローチを導入する。
このアプローチはタスク間で共有される構造を利用し、最適なアクションへのアクセスを必要とせず、実証者より優れています。
提案手法が一般的であることを示すために, 種々の構造的帯域幅問題に対するこれらの主張を検証するとともに, 有効探索を支援するために, 未確認テストタスクに対する期待する報奨を迅速に特定できることを示す。
関連論文リスト
- Open-Book Neural Algorithmic Reasoning [5.057669848157507]
ニューラルネットワークのための新しいオープンブック学習フレームワークを提案する。
このフレームワークでは、ネットワークはトレーニングデータセットのすべてのインスタンスにアクセスして利用することができる。
このオープンブックアテンションメカニズムは、ベンチマーク中の様々なタスク間の固有の関係についての洞察を提供する。
論文 参考訳(メタデータ) (2024-12-30T02:14:58Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。
標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文 参考訳(メタデータ) (2022-01-11T18:44:17Z) - Learning to Actively Learn: A Robust Approach [22.75298609290053]
本研究では,アクティブラーニングや純粋探索型マルチアームバンディットといった適応データ収集タスクのアルゴリズム設計手法を提案する。
我々の適応アルゴリズムは、情報理論の下界から導かれる問題の同値クラスに対する逆学習によって学習される。
我々は,訓練手順の安定性と有効性を正当化するための合成実験を行い,実データから導出される課題について評価する。
論文 参考訳(メタデータ) (2020-10-29T06:48:22Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。