論文の概要: Model-Based Transfer Learning for Contextual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.04498v1
- Date: Thu, 8 Aug 2024 14:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:18:18.478684
- Title: Model-Based Transfer Learning for Contextual Reinforcement Learning
- Title(参考訳): 文脈強化学習のためのモデルに基づく伝達学習
- Authors: Jung-Hoon Cho, Vindula Jayawardana, Sirui Li, Cathy Wu,
- Abstract要約: トレーニングすべき優れたタスクを体系的に選択する方法を示し、さまざまなタスクにおける全体的なパフォーマンスを最大化する。
このアプローチの背後にある主要なアイデアは、トレーニングされたモデルを転送することで生じるパフォーマンス損失を明示的にモデル化することです。
都市交通と標準制御ベンチマークを用いて,提案手法を実験的に検証した。
- 参考スコア(独自算出の注目度): 5.5597941107270215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning is a powerful approach to complex decision making. However, one issue that limits its practical application is its brittleness, sometimes failing to train in the presence of small changes in the environment. This work is motivated by the empirical observation that directly applying an already trained model to a related task often works remarkably well, also called zero-shot transfer. We take this practical trick one step further to consider how to systematically select good tasks to train, maximizing overall performance across a range of tasks. Given the high cost of training, it is critical to choose a small set of training tasks. The key idea behind our approach is to explicitly model the performance loss (generalization gap) incurred by transferring a trained model. We hence introduce Model-Based Transfer Learning (MBTL) for solving contextual RL problems. In this work, we model the performance loss as a simple linear function of task context similarity. Furthermore, we leverage Bayesian optimization techniques to efficiently model and estimate the unknown training performance of the task space. We theoretically show that the method exhibits regret that is sublinear in the number of training tasks and discuss conditions to further tighten regret bounds. We experimentally validate our methods using urban traffic and standard control benchmarks. Despite the conceptual simplicity, the experimental results suggest that MBTL can achieve greater performance than strong baselines, including exhaustive training on all tasks, multi-task training, and random selection of training tasks. This work lays the foundations for investigating explicit modeling of generalization, thereby enabling principled yet effective methods for contextual RL.
- Abstract(参考訳): 深層強化学習は、複雑な意思決定に対する強力なアプローチである。
しかし、実用的応用を制限している問題のひとつは、その脆さであり、時には環境に小さな変化があった場合の訓練に失敗することがある。
この研究は、既に訓練されたモデルを関連するタスクに直接適用するという経験的観察によって動機付けられ、ゼロショット転送(zero-shot transfer)とも呼ばれる。
この実践的なトリックをさらに進めて、さまざまなタスクにわたる全体的なパフォーマンスを最大化しながら、トレーニングする優れたタスクを体系的に選択する方法を検討します。
トレーニングのコストが高いことから、少数のトレーニングタスクを選択することが重要です。
このアプローチの背後にある重要なアイデアは、トレーニングされたモデルを転送することで生じるパフォーマンス損失(一般化ギャップ)を明示的にモデル化することです。
そこで我々は,文脈RL問題の解法としてモデルベーストランスファーラーニング(MBTL)を導入する。
本研究では,タスクコンテキスト類似性の単純な線形関数として性能損失をモデル化する。
さらに,ベイズ最適化手法を利用して,タスク空間の未知のトレーニング性能を効率的にモデル化し,推定する。
理論的には,本手法はトレーニングタスク数に比例する後悔を示し,後悔境界をさらに厳格化するための条件について議論する。
都市交通と標準制御ベンチマークを用いて,提案手法を実験的に検証した。
概念的単純さにもかかわらず、実験結果はMBTLが全てのタスクの徹底的なトレーニング、マルチタスクトレーニング、ランダムなトレーニングタスクの選択など、強いベースラインよりも高いパフォーマンスを達成できることを示唆している。
この研究は、一般化の明示的モデリングを調査するための基礎を築き、文脈的RLの原則的かつ効果的な方法を可能にする。
関連論文リスト
- Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Simplified Temporal Consistency Reinforcement Learning [19.814047499837084]
本稿では,潜時整合性によって訓練された潜時力学モデルに依存する単純な表現学習手法が,高性能なRLには十分であることを示す。
提案手法は,モデルフリー手法を大きなマージンで上回り,モデルベース手法のサンプル効率を2.4倍高速にトレーニングしながら比較する。
論文 参考訳(メタデータ) (2023-06-15T19:37:43Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Improving Multi-task Learning via Seeking Task-based Flat Regions [43.85516379095757]
MTL(Multi-Task Learning)は、ディープニューラルネットワークをトレーニングするための強力な学習パラダイムである。
MTLには、究極の勾配降下方向を導出するためにタスク勾配を操作することに焦点を当てた、新たな作業ラインがある。
単タスク学習におけるモデル一般化能力を向上するシャープネス認識最小化という,最近導入されたトレーニング手法を活用することを提案する。
論文 参考訳(メタデータ) (2022-11-24T17:19:30Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Sample-based Regularization: A Transfer Learning Strategy Toward Better
Generalization [8.432864879027724]
少量のデータでディープニューラルネットワークをトレーニングすることは、難しい問題である。
私たちがよく直面する現実的な難題の1つは、多くのサンプルを集めることです。
大規模なデータセットでトレーニングされたソースモデルを使用することで、トレーニングデータの不足に起因する過度な適合を軽減することができる。
論文 参考訳(メタデータ) (2020-07-10T06:02:05Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。