論文の概要: Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory
- arxiv url: http://arxiv.org/abs/2405.19024v1
- Date: Wed, 29 May 2024 12:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:20:29.671278
- Title: Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory
- Title(参考訳): Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory
- Authors: Mustafa Mert Çelikok, Frans A. Oliehoek, Jan-Willem van de Meent,
- Abstract要約: 凹凸ユーティリティによる逆強化学習問題を考察する。
CURLは古典的なベルマン方程式を無効にするため、標準IRLの結果のほとんどは一般には適用されない。
平均場ゲームサブクラスにおける逆ゲーム理論問題と等価であることを示すことによって,I-CURLに対する実現可能な報酬の新たな定義を提案する。
- 参考スコア(独自算出の注目度): 17.62475351325657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider inverse reinforcement learning problems with concave utilities. Concave Utility Reinforcement Learning (CURL) is a generalisation of the standard RL objective, which employs a concave function of the state occupancy measure, rather than a linear function. CURL has garnered recent attention for its ability to represent instances of many important applications including the standard RL such as imitation learning, pure exploration, constrained MDPs, offline RL, human-regularized RL, and others. Inverse reinforcement learning is a powerful paradigm that focuses on recovering an unknown reward function that can rationalize the observed behaviour of an agent. There has been recent theoretical advances in inverse RL where the problem is formulated as identifying the set of feasible reward functions. However, inverse RL for CURL problems has not been considered previously. In this paper we show that most of the standard IRL results do not apply to CURL in general, since CURL invalidates the classical Bellman equations. This calls for a new theoretical framework for the inverse CURL problem. Using a recent equivalence result between CURL and Mean-field Games, we propose a new definition for the feasible rewards for I-CURL by proving that this problem is equivalent to an inverse game theory problem in a subclass of mean-field games. We present initial query and sample complexity results for the I-CURL problem under assumptions such as Lipschitz-continuity. Finally, we outline future directions and applications in human--AI collaboration enabled by our results.
- Abstract(参考訳): 凹凸ユーティリティによる逆強化学習問題を考察する。
コンケーブユーティリティ強化学習(Concave Utility Reinforcement Learning, CURL)は、線形関数ではなく、状態占有率のコンケーブ関数を用いる標準RL目標の一般化である。
CURLは、模倣学習、純粋な探索、制約されたMDP、オフラインRL、人間規則化されたRLなどの標準RLを含む多くの重要なアプリケーションのインスタンスを表現できることで近年注目を集めている。
逆強化学習は、エージェントの観察された振る舞いを合理化できる未知の報酬関数の回復に焦点を当てた強力なパラダイムである。
逆 RL では、この問題は実現可能な報酬関数の集合を識別するものとして定式化されている。
しかし、CURL問題に対する逆RLは、これまで検討されていない。
本稿では、CURLが古典ベルマン方程式を無効にするため、標準IRL結果の大部分が一般には適用されないことを示す。
これにより、逆CURL問題に対する新たな理論的枠組みが要求される。
CURLと平均場ゲーム間の最近の等価結果を用いて、平均場ゲームサブクラスにおける逆ゲーム理論問題と等価であることを証明し、I-CURLに対する実現可能な報酬の新たな定義を提案する。
本稿では,I-CURL問題に対するLipschitz-Continuityのような仮定の下で,初期クエリとサンプルの複雑性について述べる。
最後に,人間とAIのコラボレーションにおける今後の方向性と応用について概説する。
関連論文リスト
- Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - MetaCURL: Non-stationary Concave Utility Reinforcement Learning [8.230945193151399]
非定常環境におけるエピソードループのないマルコフ決定過程におけるオンライン学習について検討する。
本稿では,非定常MDPのための最初のCURLアルゴリズムであるMetaCURLを紹介する。
論文 参考訳(メタデータ) (2024-05-30T08:17:00Z) - Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Efficient Model-Based Concave Utility Reinforcement Learning through
Greedy Mirror Descent [0.0]
Concave Utility Reinforcement Learning problem(英語版)は古典的なベルマン方程式を無効化する。
有限地平面マルコフ決定過程におけるCURLの新しいアルゴリズムであるMD-CURLを紹介する。
本稿では,MD-CURLをオンライン・エピソードベース・セッティングに適応させる新しい手法であるGreedy MD-CURLを提案する。
論文 参考訳(メタデータ) (2023-11-30T08:32:50Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Concave Utility Reinforcement Learning: the Mean-field Game viewpoint [42.403650997341806]
Concave Utility Reinforcement Learning (CURL) は、エージェントのポリシーによって引き起こされる占有度測定において、線形から凹凸ユーティリティまでRLを拡張する。
このより一般的なパラダイムは、古典的なベルマン方程式を無効にし、新しいアルゴリズムを要求する。
CURLは平均フィールドゲーム(MFG)のサブクラスであることを示す。
論文 参考訳(メタデータ) (2021-06-07T16:51:07Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。