論文の概要: Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games
- arxiv url: http://arxiv.org/abs/2301.01997v1
- Date: Thu, 5 Jan 2023 10:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 14:53:00.573570
- Title: Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games
- Title(参考訳): エキスパートラーナーゼロサムゲームのためのデータ駆動逆強化学習
- Authors: Wenqian Xue and Bosen Lian and Jialu Fan and Tianyou Chai and Frank L.
Lewis
- Abstract要約: 逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。
学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。
我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 30.720112378448285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we formulate inverse reinforcement learning (IRL) as an
expert-learner interaction whereby the optimal performance intent of an expert
or target agent is unknown to a learner agent. The learner observes the states
and controls of the expert and hence seeks to reconstruct the expert's cost
function intent and thus mimics the expert's optimal response. Next, we add
non-cooperative disturbances that seek to disrupt the learning and stability of
the learner agent. This leads to the formulation of a new interaction we call
zero-sum game IRL. We develop a framework to solve the zero-sum game IRL
problem that is a modified extension of RL policy iteration (PI) to allow
unknown expert performance intentions to be computed and non-cooperative
disturbances to be rejected. The framework has two parts: a value function and
control action update based on an extension of PI, and a cost function update
based on standard inverse optimal control. Then, we eventually develop an
off-policy IRL algorithm that does not require knowledge of the expert and
learner agent dynamics and performs single-loop learning. Rigorous proofs and
analyses are given. Finally, simulation experiments are presented to show the
effectiveness of the new approach.
- Abstract(参考訳): 本稿では, 学習者エージェントに対して, 専門家や対象エージェントの最適性能意図が不明な, 専門家と学習者とのインタラクションとして, 逆強化学習(irl)を定式化する。
学習者は、専門家の状態と制御を観察し、専門家のコスト関数意図を再構築し、専門家の最適な反応を模倣する。
次に,学習エージェントの学習と安定性を損なう非協力的障害を追加する。
これにより、ゼロサムゲームIRLと呼ばれる新しい相互作用が定式化される。
RLポリシー反復(PI)の修正拡張であるゼロサムゲームIRL問題を解決するためのフレームワークを開発し、未知の専門家のパフォーマンス意図を計算し、非協調的障害を除去する。
このフレームワークには、PIの拡張に基づく値関数と制御アクションの更新と、標準の逆最適制御に基づくコスト関数の更新の2つの部分がある。
そして、最終的には、専門家や学習者のエージェントダイナミクスの知識を必要とせず、シングルループ学習を行うオフポリシーirlアルゴリズムを開発する。
厳密な証明と分析が与えられる。
最後に,新しい手法の有効性を示すためにシミュレーション実験を行った。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Accelerating Reinforcement Learning Agent with EEG-based Implicit Human
Feedback [10.138798960466222]
人間のフィードバックによる強化学習(RL)エージェントは、学習のさまざまな側面を劇的に改善することができる。
従来の方法では、人間の観察者が明示的に入力をし、RLエージェントの学習プロセスのループで人間を負担する必要があった。
脳波による人間の内因性反応を、エラー関連電位(ErrP)の形で暗黙の(そして自然な)フィードバックとして捉えることを検討する。
論文 参考訳(メタデータ) (2020-06-30T03:13:37Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。