論文の概要: Efficient Reward Identification In Max Entropy Reinforcement Learning with Sparsity and Rank Priors
- arxiv url: http://arxiv.org/abs/2508.07400v1
- Date: Sun, 10 Aug 2025 16:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.84265
- Title: Efficient Reward Identification In Max Entropy Reinforcement Learning with Sparsity and Rank Priors
- Title(参考訳): 最大エントロピー強化学習におけるスポーサリティとランク優先による効率的なリワード同定
- Authors: Mohamad Louai Shehab, Alperen Tercan, Necmiye Ozay,
- Abstract要約: 本稿では,最大エントロピー強化学習問題から得られる最適方針や実演から,時変報酬関数を復元する問題を考察する。
この問題は、基礎となる報酬について追加の仮定なしで非常に不適切である。
どちらの場合も、これらの観測は効率的な最適化に基づく報酬同定アルゴリズムに繋がる。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the problem of recovering time-varying reward functions from either optimal policies or demonstrations coming from a max entropy reinforcement learning problem. This problem is highly ill-posed without additional assumptions on the underlying rewards. However, in many applications, the rewards are indeed parsimonious, and some prior information is available. We consider two such priors on the rewards: 1) rewards are mostly constant and they change infrequently, 2) rewards can be represented by a linear combination of a small number of feature functions. We first show that the reward identification problem with the former prior can be recast as a sparsification problem subject to linear constraints. Moreover, we give a polynomial-time algorithm that solves this sparsification problem exactly. Then, we show that identifying rewards representable with the minimum number of features can be recast as a rank minimization problem subject to linear constraints, for which convex relaxations of rank can be invoked. In both cases, these observations lead to efficient optimization-based reward identification algorithms. Several examples are given to demonstrate the accuracy of the recovered rewards as well as their generalizability.
- Abstract(参考訳): 本稿では,最大エントロピー強化学習問題から得られる最適ポリシーや実演から,時変報酬関数を復元する問題を考察する。
この問題は、基礎となる報酬について追加の仮定なしで非常に不適切である。
しかし、多くのアプリケーションでは、報酬は実際には同義であり、いくつかの事前情報は利用可能である。
私たちは、報酬について2つの先例を考えます。
1)報酬は概ね一定であり、頻繁に変化する。
2)報酬は少数の特徴関数の線形結合で表すことができる。
まず,前者に対する報奨識別問題は,線形制約を受けるスペーシフィケーション問題として再キャスト可能であることを示す。
さらに,このスペーシフィケーション問題を正確に解く多項式時間アルゴリズムを提案する。
次に,最小限の特徴量で表現可能な報酬を線形制約によるランク最小化問題として再キャストし,ランクの凸緩和を実現できることを示す。
どちらの場合も、これらの観測は効率的な最適化に基づく報酬同定アルゴリズムに繋がる。
回収された報酬の精度と一般化可能性を示すいくつかの例が与えられる。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Towards Theoretical Understanding of Inverse Reinforcement Learning [45.3190496371625]
逆強化学習(IRL)は、専門家が示す振る舞いを正当化する報酬関数を回復するアルゴリズムの強力なファミリーである。
本稿では、生成モデルを用いた有限水平問題の場合のIRLの理論ギャップを解消する。
論文 参考訳(メタデータ) (2023-04-25T16:21:10Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。