論文の概要: Monitored Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2402.06819v2
- Date: Tue, 13 Feb 2024 19:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 18:19:28.759338
- Title: Monitored Markov Decision Processes
- Title(参考訳): マルコフ決定過程の監視
- Authors: Simone Parisi, Montaser Mohammedalamen, Alireza Kazemipour, Matthew E.
Taylor, Michael Bowling
- Abstract要約: 強化学習(RL)において、エージェントは、環境と相互作用し、その動作に対するフィードバック(数値報酬)を受け取ることによってタスクを実行することを学習する。
報酬は常に観測可能であるという仮定は、実世界の問題には適用できないことが多い。
我々は、エージェントが常に報酬を観察できない、新しいが一般的なRLフレームワーク、監視されたMDPを定式化する。
- 参考スコア(独自算出の注目度): 15.438015964569743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In reinforcement learning (RL), an agent learns to perform a task by
interacting with an environment and receiving feedback (a numerical reward) for
its actions. However, the assumption that rewards are always observable is
often not applicable in real-world problems. For example, the agent may need to
ask a human to supervise its actions or activate a monitoring system to receive
feedback. There may even be a period of time before rewards become observable,
or a period of time after which rewards are no longer given. In other words,
there are cases where the environment generates rewards in response to the
agent's actions but the agent cannot observe them. In this paper, we formalize
a novel but general RL framework - Monitored MDPs - where the agent cannot
always observe rewards. We discuss the theoretical and practical consequences
of this setting, show challenges raised even in toy environments, and propose
algorithms to begin to tackle this novel setting. This paper introduces a
powerful new formalism that encompasses both new and existing problems and lays
the foundation for future research.
- Abstract(参考訳): 強化学習(RL)において、エージェントは、環境と相互作用し、その動作に対するフィードバック(数値報酬)を受け取ることによってタスクを実行することを学習する。
しかし、報酬は常に観測可能であるという仮定は実世界の問題には適用されないことが多い。
例えば、エージェントは人間に行動の監視を依頼するか、フィードバックを受け取るために監視システムを起動する必要がある。
報酬が観測可能になるまでの期間や、報酬が与えられなくなった後の期間があるかもしれない。
言い換えれば、エージェントのアクションに応じて環境が報酬を発生させる場合がありますが、エージェントはそれを観察できません。
本稿では、エージェントが常に報酬を観察できないような、新しいが一般的なRLフレームワークである監視型MDPを定式化する。
我々は,この設定の理論的および実践的な結果について議論し,玩具環境においても生じる課題を示し,新しい設定に取り組むためのアルゴリズムを提案する。
本稿では,新しい問題と既存の問題の両方を包含する強力な新しい形式主義を導入し,今後の研究の基盤を築く。
関連論文リスト
- Getting By Goal Misgeneralization With a Little Help From a Mentor [5.012314384895538]
本稿では, エージェントが不慣れな状況下で上司に助けを求めることが, この問題を軽減できるかどうかを考察する。
我々は,CoinRun環境においてPPOで訓練されたエージェントに焦点を当てた。
エージェントの内部状態に基づくメソッドは、積極的にヘルプを要求せず、ミスが既に発生するまで待つことに気付きました。
論文 参考訳(メタデータ) (2024-10-28T14:07:41Z) - Beyond Optimism: Exploration With Partially Observable Rewards [10.571972176725371]
強化学習(RL)の探索は依然としてオープンな課題である。
本稿では,既存手法の限界を克服し,最適方針への収束を保証する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-06-20T00:42:02Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。