論文の概要: Multi Task Inverse Reinforcement Learning for Common Sense Reward
- arxiv url: http://arxiv.org/abs/2402.11367v1
- Date: Sat, 17 Feb 2024 19:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:33:19.343219
- Title: Multi Task Inverse Reinforcement Learning for Common Sense Reward
- Title(参考訳): 共通感覚報酬のための多タスク逆強化学習
- Authors: Neta Glazer, Aviv Navon, Aviv Shamsian, Ethan Fetaya
- Abstract要約: エージェントの訓練に成功しても、逆強化学習は有用な報酬関数を学習しないことを示す。
すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。
すなわち、多タスク逆強化学習を応用して、有用な報酬関数を学習することができる。
- 参考スコア(独自算出の注目度): 21.145179791929337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the challenges in applying reinforcement learning in a complex
real-world environment lies in providing the agent with a sufficiently detailed
reward function. Any misalignment between the reward and the desired behavior
can result in unwanted outcomes. This may lead to issues like "reward hacking"
where the agent maximizes rewards by unintended behavior. In this work, we
propose to disentangle the reward into two distinct parts. A simple
task-specific reward, outlining the particulars of the task at hand, and an
unknown common-sense reward, indicating the expected behavior of the agent
within the environment. We then explore how this common-sense reward can be
learned from expert demonstrations. We first show that inverse reinforcement
learning, even when it succeeds in training an agent, does not learn a useful
reward function. That is, training a new agent with the learned reward does not
impair the desired behaviors. We then demonstrate that this problem can be
solved by training simultaneously on multiple tasks. That is, multi-task
inverse reinforcement learning can be applied to learn a useful reward
function.
- Abstract(参考訳): 複雑な現実世界環境で強化学習を適用する際の課題の1つは、エージェントに十分な詳細な報酬関数を提供することである。
報酬と望ましい行動の間の不一致は、望ましくない結果をもたらす可能性がある。
これは、エージェントが意図しない行動によって報酬を最大化する「リワードハッキング」のような問題につながる可能性がある。
本稿では,報酬を2つの異なる部分に分割することを提案する。
目の前のタスクの細部を概説する単純なタスク固有の報酬と、環境内のエージェントの期待される振る舞いを示す未知の共通意味の報酬。
次に、この常識的な報酬が専門家のデモからどのように学べるかを考察する。
まず,エージェントの訓練に成功しても,逆強化学習は有用な報酬関数を学習しないことを示す。
すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。
そして,複数のタスクで同時にトレーニングすることで,この問題が解決できることを実証する。
すなわち、多タスク逆強化学習を適用して有用な報酬関数を学習することができる。
関連論文リスト
- Reward Shaping for Happier Autonomous Cyber Security Agents [0.276240219662896]
最も有望な方向の1つは、深層強化学習を使用して、コンピュータネットワーク防衛タスクで自律エージェントを訓練する。
本研究は,この課題の訓練において,エージェントに提供される報酬信号の影響について検討する。
論文 参考訳(メタデータ) (2023-10-20T15:04:42Z) - Tiered Reward: Designing Rewards for Specification and Fast Learning of Desired Behavior [13.409265335314169]
Tiered Rewardは環境に依存しない報酬関数のクラスである。
我々は、我々の嗜好関係に応じて最適な政策を誘導することが保証されていることを示す。
論文 参考訳(メタデータ) (2022-12-07T15:55:00Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文 参考訳(メタデータ) (2021-11-01T12:12:16Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Deceptive Reinforcement Learning for Privacy-Preserving Planning [8.950168559003991]
強化学習は、探索行動から得られる報酬に基づいて行動ポリシーを見つける問題である。
強化学習の鍵となる要素は報酬関数であり、報酬(負または正の)が与えられるか、いつ与えられるかを決定する。
プライバシー保護強化学習の課題を解決するための2つのモデルを提案する。
論文 参考訳(メタデータ) (2021-02-05T06:50:04Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Pitfalls of learning a reward function online [28.2272248328398]
我々は、エージェントが報酬関数を学習し、同時にそれを最適化する連続的な(一生の)学習アプローチを考える。
これは、学習プロセスを一方向に意図的に操作するなど、いくつかの落とし穴が伴っている。
影響のないプロセスが自動的に制限不能であることを示し、可能環境の集合が十分にリッチであれば、その逆も真であることを示す。
論文 参考訳(メタデータ) (2020-04-28T16:58:58Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。