論文の概要: Is Exploration All You Need? Effective Exploration Characteristics for Transfer in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.02235v1
- Date: Tue, 2 Apr 2024 18:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 19:28:46.512236
- Title: Is Exploration All You Need? Effective Exploration Characteristics for Transfer in Reinforcement Learning
- Title(参考訳): 探究は必要か? 強化学習における伝達のための効果的な探索特性
- Authors: Jonathan C. Balloch, Rishav Bhagat, Geigh Zollicoffer, Ruoran Jia, Julia Kim, Mark O. Riedl,
- Abstract要約: 我々は、オンライントランスファー学習に肯定的な影響を及ぼす特徴を特定するために、さまざまなトランスファータイプ(またはノベルティ')で11の人気のある探索アルゴリズムをテストする。
分析の結果,特定の環境変化に対してのみ伝達性能が向上するのに対し,その特性は幅広い伝達タスクにおける性能と効率の向上と相関していることがわかった。
- 参考スコア(独自算出の注目度): 13.322146980081778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep reinforcement learning (RL) research, there has been a concerted effort to design more efficient and productive exploration methods while solving sparse-reward problems. These exploration methods often share common principles (e.g., improving diversity) and implementation details (e.g., intrinsic reward). Prior work found that non-stationary Markov decision processes (MDPs) require exploration to efficiently adapt to changes in the environment with online transfer learning. However, the relationship between specific exploration characteristics and effective transfer learning in deep RL has not been characterized. In this work, we seek to understand the relationships between salient exploration characteristics and improved performance and efficiency in transfer learning. We test eleven popular exploration algorithms on a variety of transfer types -- or ``novelties'' -- to identify the characteristics that positively affect online transfer learning. Our analysis shows that some characteristics correlate with improved performance and efficiency across a wide range of transfer tasks, while others only improve transfer performance with respect to specific environment changes. From our analysis, make recommendations about which exploration algorithm characteristics are best suited to specific transfer situations.
- Abstract(参考訳): 深部強化学習(RL)研究において,スパース・リワード問題を解きながら,より効率的で生産性の高い探査手法を設計するための共同研究がなされている。
これらの探索手法は共通の原則(例えば多様性の向上)と実装の詳細(例えば本質的な報酬)を共有することが多い。
以前の研究で、非定常マルコフ決定プロセス(MDP)は、オンライン転送学習によって環境の変化に効率的に適応するために探索を必要とすることが判明した。
しかし, 深部RLにおける探査特性と効果的な移動学習との関係は明らかにされていない。
本研究では,有能な探索特性と伝達学習の性能向上と効率向上の関係について考察する。
オンライントランスファー学習に肯定的な影響を及ぼす特徴を特定するために、さまざまなトランスファータイプ('novelties'')で11の人気のある探索アルゴリズムを検証した。
分析の結果,特定の環境変化に対してのみ伝達性能が向上するのに対し,その特性は幅広い伝達タスクにおける性能と効率の向上と相関していることがわかった。
本分析では,どの探索アルゴリズム特性が特定の移動状況に最も適しているかを推奨する。
関連論文リスト
- Similarity-based Knowledge Transfer for Cross-Domain Reinforcement
Learning [3.3148826359547523]
我々は,エンコーダ・デコーダのセットを用いて,異なる空間に適合する半教師付きアライメント損失を開発する。
従来の手法と比較して、我々の手法は専門家のポリシーによって整列、ペア化、あるいは収集されるデータを必要としない。
論文 参考訳(メタデータ) (2023-12-05T19:26:01Z) - Evaluating the structure of cognitive tasks with transfer learning [67.22168759751541]
本研究では,脳波復号処理における深層学習表現の伝達可能性について検討した。
最近リリースされた2つのEEGデータセット上で、最先端デコードモデルを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-07-28T14:51:09Z) - Generalization Performance of Transfer Learning: Overparameterized and
Underparameterized Regimes [61.22448274621503]
現実世界のアプリケーションでは、タスクは部分的な類似性を示し、あるアスペクトは似ているが、他のアスペクトは異なるか無関係である。
本研究は,パラメータ伝達の2つの選択肢を包含して,多種多様な移動学習について検討する。
一般化性能を向上させるために,共通部分とタスク特化部分の特徴数を決定するための実践的ガイドラインを提供する。
論文 参考訳(メタデータ) (2023-06-08T03:08:40Z) - Feasibility of Transfer Learning: A Mathematical Framework [4.530876736231948]
それは、必要な数学的概念を確立し、伝達学習のための数学的枠組みを構築することから始まる。
そして、3段階の転送学習手順を最適化問題として特定・定式化し、実現可能性問題の解決を可能にする。
論文 参考訳(メタデータ) (2023-05-22T12:44:38Z) - The Role of Exploration for Task Transfer in Reinforcement Learning [8.817381809671804]
移行学習の文脈で、探索-探索-探索トレードオフを再検討する。
本研究は、強化学習探索手法をレビューし、それらを組織化する分類を定義し、これらの手法の違いをタスク転送の文脈で分析し、今後の研究への道筋を提案する。
論文 参考訳(メタデータ) (2022-10-11T01:23:21Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。