Fugu-MT 論文翻訳(概要): Active Reinforcement Learning over MDPs

論文の概要: Active Reinforcement Learning over MDPs

arxiv url: http://arxiv.org/abs/2108.02323v2
Date: Fri, 6 Aug 2021 04:03:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-09 12:06:08.022891
Title: Active Reinforcement Learning over MDPs
Title（参考訳）: mdpsによるアクティブ強化学習
Authors: Qi Yang, Peng Yang, Ke Tang
Abstract要約: 本稿では,インスタンス選択による限られた資源の一般化効率を向上させるために,MDP上でのアクティブ強化学習(ARL)の枠組みを提案する。既存のアプローチとは異なり、与えられたすべてのデータをトレーニングするのではなく、トレーニングデータを積極的に選択して使用しようとします。
参考スコア（独自算出の注目度）: 29.59790449462737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The past decade has seen the rapid development of Reinforcement Learning, which acquires impressive performance with numerous training resources. However, one of the greatest challenges in RL is generalization efficiency (i.e., generalization performance in a unit time). This paper proposes a framework of Active Reinforcement Learning (ARL) over MDPs to improve generalization efficiency in a limited resource by instance selection. Given a number of instances, the algorithm chooses out valuable instances as training sets while training the policy, thereby costing fewer resources. Unlike existing approaches, we attempt to actively select and use training data rather than train on all the given data, thereby costing fewer resources. Furthermore, we introduce a general instance evaluation metrics and selection mechanism into the framework. Experiments results reveal that the proposed framework with Proximal Policy Optimization as policy optimizer can effectively improve generalization efficiency than unselect-ed and unbiased selected methods.
Abstract（参考訳）: 過去10年で強化学習が急速に発展し、多くのトレーニングリソースで素晴らしいパフォーマンスを得られるようになった。しかしながら、rlの最大の課題の1つは、一般化効率(単位時間における一般化性能)である。本稿では,インスタンス選択による限られた資源の一般化効率を向上させるために,MDP上でのアクティブ強化学習(ARL)の枠組みを提案する。多数のインスタンスが与えられた場合、アルゴリズムはポリシーのトレーニング中にトレーニングセットとして貴重なインスタンスを選択し、リソースを少なくする。既存のアプローチとは異なり、与えられたすべてのデータをトレーニングするのではなく、トレーニングデータを積極的に選択して使用しようとします。さらに、フレームワークに一般的なインスタンス評価指標と選択メカニズムを導入します。実験結果から,ポリシオプティマイザとしてプロクティマルポリシーオプティマイザが提案するフレームワークは,選択されていない手法やバイアスのない手法よりも効果的に一般化効率を向上できることがわかった。

関連論文リスト

On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。 OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文参考訳（メタデータ） (2025-05-29T15:58:04Z)
What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文参考訳（メタデータ） (2025-05-12T21:24:22Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文参考訳（メタデータ） (2023-11-16T10:42:58Z)
Sample-Efficient Multi-Objective Learning via Generalized Policy Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2023-01-18T20:54:40Z)
A Transferable and Automatic Tuning of Deep Reinforcement Learning for Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。 Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文参考訳（メタデータ） (2022-09-19T14:09:07Z)
Deep Reinforcement Learning for Exact Combinatorial Optimization: Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文参考訳（メタデータ） (2022-06-14T16:35:58Z)
Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文参考訳（メタデータ） (2021-12-06T15:07:48Z)
Efficient Reinforced Feature Selection via Early Stopping Traverse Strategy [36.890295071860166]
単エージェントモンテカルロ型強化特徴選択法(MCRFS)を提案する。また,早期停止(ES)戦略と報酬レベルインタラクティブ(RI)戦略の2つの効率改善戦略を提案する。
論文参考訳（メタデータ） (2021-09-29T03:51:13Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文参考訳（メタデータ） (2021-02-23T01:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。