論文の概要: Beyond Scalar Rewards: An Axiomatic Framework for Lexicographic MDPs
- arxiv url: http://arxiv.org/abs/2505.12049v1
- Date: Sat, 17 May 2025 15:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.008879
- Title: Beyond Scalar Rewards: An Axiomatic Framework for Lexicographic MDPs
- Title(参考訳): Beyond Scalar Rewards: Lexicographic MDPのためのAxiomatic Framework
- Authors: Mehran Shakerinava, Siamak Ravanbakhsh, Adam Oberman,
- Abstract要約: ハウスナーの基本的な研究は、連続公理の減少が期待される効用理論の一般化につながることを示した。
このような報酬関数と一般的なd次元の場合の完全な特徴付けを、優先性に関するメモリレス仮定の下でマルコフ決定過程(MDP)において提供する。
この設定における最適ポリシーは、スカラー・リワードの多くの望ましい特性を保っているが、Constrained MDP(もう一つの一般的な多目的設定)ではそうではないことを示す。
- 参考スコア(独自算出の注目度): 18.48866194756127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has formalized the reward hypothesis through the lens of expected utility theory, by interpreting reward as utility. Hausner's foundational work showed that dropping the continuity axiom leads to a generalization of expected utility theory where utilities are lexicographically ordered vectors of arbitrary dimension. In this paper, we extend this result by identifying a simple and practical condition under which preferences cannot be represented by scalar rewards, necessitating a 2-dimensional reward function. We provide a full characterization of such reward functions, as well as the general d-dimensional case, in Markov Decision Processes (MDPs) under a memorylessness assumption on preferences. Furthermore, we show that optimal policies in this setting retain many desirable properties of their scalar-reward counterparts, while in the Constrained MDP (CMDP) setting -- another common multiobjective setting -- they do not.
- Abstract(参考訳): 最近の研究は、報酬を効用として解釈することで、期待された効用理論のレンズを通して報酬仮説を定式化した。
ハウスナーの基本的な研究は、連続公理の減少が、ユーティリティが任意の次元の語彙的に順序づけられたベクトルであるような期待効用理論の一般化につながることを示した。
本稿では,2次元の報酬関数を必要とするスカラー報酬によって嗜好を表現できない,単純で実用的な条件を同定することによって,この結果を拡張する。
このような報酬関数と一般的なd次元の場合の完全な特徴付けを、優先性に関するメモリレス仮定の下でマルコフ決定過程(MDP)において提供する。
さらに、この設定における最適ポリシーは、スカラー・リワードの多くの望ましい特性を保っている一方で、制約付きMDP(CMDP)設定では、他の一般的な多目的設定では、そうではないことを示す。
関連論文リスト
- Understanding Reward Ambiguity Through Optimal Transport Theory in
Inverse Reinforcement Learning [4.8951183832371]
逆強化学習(IRL)は、観察された専門家の行動から基礎となる報酬関数を推論することを目的としている。
現在の手法は高次元問題に直面することが多く、幾何学的基礎が欠如している。
本稿では,これらの課題に対する新たな視点を提供するために,最適輸送(OT)理論を利用する。
論文 参考訳(メタデータ) (2023-10-18T15:42:53Z) - Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Utility Theory for Sequential Decision Making [20.7262938359876]
メモリレスの嗜好が、移行当たりの報酬や、将来のリターンに対する乗法的要因という形で実用性をもたらすことを示す。
我々は、強化学習における合理的エージェントの設計の根底にある報酬仮説をデミスティフィケートする。
論文 参考訳(メタデータ) (2022-06-27T21:28:35Z) - Reinforcement Learning in Linear MDPs: Constant Regret and
Representation Selection [136.4014229319618]
線形構造を持つ有限水平マルコフ決定過程(MDPs)における後悔最小化における状態-作用値関数の表現の役割について検討する。
まず,線形報酬関数を持つ任意のMDPにおいて,一貫した後悔を実現するために,Universally spaning optimal features (UNISOFT) と呼ばれる表現に必要条件を導出する。
論文 参考訳(メタデータ) (2021-10-27T22:07:08Z) - Probabilistic Entity Representation Model for Chain Reasoning over
Knowledge Graphs [18.92547855877845]
本稿では,知識グラフ上の論理的推論のための確率的エンティティ表現モデル(PERM)を提案する。
PERMは、エンティティを平均と共分散パラメータで多変量ガウス密度としてエンコードし、意味的位置と滑らかな決定境界をキャプチャする。
われわれは, PERMの薬剤再精製事例研究における能力を示すとともに, 提案された研究が, 現行の方法よりもはるかに優れたF1薬剤を推奨できることを実証した。
論文 参考訳(メタデータ) (2021-10-26T09:26:10Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Finding Fair and Efficient Allocations When Valuations Don't Add Up [25.962505544590947]
エージェント評価がマトロイドのランク関数である場合、社会的に最適な(実用的社会福祉の最大化)手法は、1つの項目(EF1)までのうらやましい自由度が存在し、計算的に抽出可能であることを示す。
これは、ナッシュの福祉を最大化する割り当てがEF1であると確立された付加的評価によって仮定されない最初の評価関数クラスである。
論文 参考訳(メタデータ) (2020-03-16T07:42:27Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。