論文の概要: Active Reinforcement Learning: Observing Rewards at a Cost
- arxiv url: http://arxiv.org/abs/2011.06709v2
- Date: Tue, 24 Nov 2020 21:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 23:19:19.255738
- Title: Active Reinforcement Learning: Observing Rewards at a Cost
- Title(参考訳): アクティブ強化学習: コストでリワードを観察する
- Authors: David Krueger, Jan Leike, Owain Evans, John Salvatier
- Abstract要約: アクティブ強化学習(英: Active reinforcement learning、ARL)は、エージェントがクエリコストを支払わない限り報酬を観察しない強化学習の変種である。
ARLの中心的な問題は、報酬情報の長期的な価値を定量化する方法である。
我々は,多腕バンディットおよび(タブラル)決定過程におけるARLに対するいくつかのアプローチを提案し,評価する。
- 参考スコア(独自算出の注目度): 9.034315299202847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active reinforcement learning (ARL) is a variant on reinforcement learning
where the agent does not observe the reward unless it chooses to pay a query
cost c > 0. The central question of ARL is how to quantify the long-term value
of reward information. Even in multi-armed bandits, computing the value of this
information is intractable and we have to rely on heuristics. We propose and
evaluate several heuristic approaches for ARL in multi-armed bandits and
(tabular) Markov decision processes, and discuss and illustrate some
challenging aspects of the ARL problem.
- Abstract(参考訳): アクティブ強化学習(英: Active reinforcement learning、ARL)は、エージェントがクエリコストc > 0 を支払わない限り報酬を観察しない強化学習の変種である。
ARLの主な問題は、報酬情報の長期的な価値を定量化する方法である。
マルチアームの盗賊でも、この情報の価値の計算は難解であり、ヒューリスティックに頼らなければならない。
我々は,多腕バンディットおよび(タブラル)マルコフ決定過程におけるARLのヒューリスティックなアプローチを提案し,またARL問題におけるいくつかの課題について考察し,考察する。
関連論文リスト
- ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - On the Limitations of Markovian Rewards to Express Multi-Objective,
Risk-Sensitive, and Modal Tasks [72.08225446179783]
強化学習(RL)におけるスカラー・マルコフ報酬関数の表現性について検討する。
本稿では、多目的RL、リスク感受性RL、モーダルRLの3つのクラスについて考察する。
これらの3つのクラスにおいて、スカラー、マルコフの報酬は、ほとんどのインスタンスを表現できない。
論文 参考訳(メタデータ) (2024-01-26T12:18:29Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Decoupling Exploration and Exploitation in Reinforcement Learning [8.946655323517092]
本稿では、探索と搾取のための個別の政策を訓練するDecoupled RL(DeRL)を提案する。
複数種類の内因性報酬を持つ2つのスパース・リワード環境におけるDeRLアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-07-19T15:31:02Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Active Measure Reinforcement Learning for Observation Cost Minimization [2.76428709354823]
本稿では,コストのかかるリターンを最大化するための学習問題の初期解として,アクティブ測度RLフレームワーク(Amrl)を提案する。
Amrl-Qエージェントは、オンライントレーニング中に、ポリシーと状態推定器を並列に学習できることが示される。
以上の結果から,Amrl-Qエージェントは標準QラーニングやDyna-Qと同様の速度で学習することがわかった。
論文 参考訳(メタデータ) (2020-05-26T13:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。