論文の概要: Active Reinforcement Learning over MDPs
- arxiv url: http://arxiv.org/abs/2108.02323v2
- Date: Fri, 6 Aug 2021 04:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 12:06:08.022891
- Title: Active Reinforcement Learning over MDPs
- Title(参考訳): mdpsによるアクティブ強化学習
- Authors: Qi Yang, Peng Yang, Ke Tang
- Abstract要約: 本稿では,インスタンス選択による限られた資源の一般化効率を向上させるために,MDP上でのアクティブ強化学習(ARL)の枠組みを提案する。
既存のアプローチとは異なり、与えられたすべてのデータをトレーニングするのではなく、トレーニングデータを積極的に選択して使用しようとします。
- 参考スコア(独自算出の注目度): 29.59790449462737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past decade has seen the rapid development of Reinforcement Learning,
which acquires impressive performance with numerous training resources.
However, one of the greatest challenges in RL is generalization efficiency
(i.e., generalization performance in a unit time). This paper proposes a
framework of Active Reinforcement Learning (ARL) over MDPs to improve
generalization efficiency in a limited resource by instance selection. Given a
number of instances, the algorithm chooses out valuable instances as training
sets while training the policy, thereby costing fewer resources. Unlike
existing approaches, we attempt to actively select and use training data rather
than train on all the given data, thereby costing fewer resources. Furthermore,
we introduce a general instance evaluation metrics and selection mechanism into
the framework. Experiments results reveal that the proposed framework with
Proximal Policy Optimization as policy optimizer can effectively improve
generalization efficiency than unselect-ed and unbiased selected methods.
- Abstract(参考訳): 過去10年で強化学習が急速に発展し、多くのトレーニングリソースで素晴らしいパフォーマンスを得られるようになった。
しかしながら、rlの最大の課題の1つは、一般化効率(単位時間における一般化性能)である。
本稿では,インスタンス選択による限られた資源の一般化効率を向上させるために,MDP上でのアクティブ強化学習(ARL)の枠組みを提案する。
多数のインスタンスが与えられた場合、アルゴリズムはポリシーのトレーニング中にトレーニングセットとして貴重なインスタンスを選択し、リソースを少なくする。
既存のアプローチとは異なり、与えられたすべてのデータをトレーニングするのではなく、トレーニングデータを積極的に選択して使用しようとします。
さらに、フレームワークに一般的なインスタンス評価指標と選択メカニズムを導入します。
実験結果から,ポリシオプティマイザとしてプロクティマルポリシーオプティマイザが提案するフレームワークは,選択されていない手法やバイアスのない手法よりも効果的に一般化効率を向上できることがわかった。
関連論文リスト
- Efficient Reinforcemen Learning via Decoupling Exploration and
Utilization [9.67983570115056]
本研究は,OPARL(Optimistic and Pessimistic Actor Reinforcement Learning)の新たな枠組みを提案する。
OPARLは、探索に特化した楽観的なアクターと、利用に焦点を当てた悲観的なアクターという、ユニークなデュアルアクターアプローチを採用している。
実験と理論的研究は、OPARLが応用と探索のためのエージェントの能力を改善することを実証している。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - A Transferable and Automatic Tuning of Deep Reinforcement Learning for
Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。
Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文 参考訳(メタデータ) (2022-09-19T14:09:07Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Efficient Reinforced Feature Selection via Early Stopping Traverse
Strategy [36.890295071860166]
単エージェントモンテカルロ型強化特徴選択法(MCRFS)を提案する。
また,早期停止(ES)戦略と報酬レベルインタラクティブ(RI)戦略の2つの効率改善戦略を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:51:13Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。