論文の概要: Utility Theory for Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2206.13637v1
- Date: Mon, 27 Jun 2022 21:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 18:16:34.022173
- Title: Utility Theory for Sequential Decision Making
- Title(参考訳): 逐次意思決定のための効用理論
- Authors: Mehran Shakerinava, Siamak Ravanbakhsh
- Abstract要約: メモリレスの嗜好が、移行当たりの報酬や、将来のリターンに対する乗法的要因という形で実用性をもたらすことを示す。
我々は、強化学習における合理的エージェントの設計の根底にある報酬仮説をデミスティフィケートする。
- 参考スコア(独自算出の注目度): 20.7262938359876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The von Neumann-Morgenstern (VNM) utility theorem shows that under certain
axioms of rationality, decision-making is reduced to maximizing the expectation
of some utility function. We extend these axioms to increasingly structured
sequential decision making settings and identify the structure of the
corresponding utility functions. In particular, we show that memoryless
preferences lead to a utility in the form of a per transition reward and
multiplicative factor on the future return. This result motivates a
generalization of Markov Decision Processes (MDPs) with this structure on the
agent's returns, which we call Affine-Reward MDPs. A stronger constraint on
preferences is needed to recover the commonly used cumulative sum of scalar
rewards in MDPs. A yet stronger constraint simplifies the utility function for
goal-seeking agents in the form of a difference in some function of states that
we call potential functions. Our necessary and sufficient conditions demystify
the reward hypothesis that underlies the design of rational agents in
reinforcement learning by adding an axiom to the VNM rationality axioms and
motivates new directions for AI research involving sequential decision making.
- Abstract(参考訳): von Neumann-Morgenstern (VNM) の効用定理は、ある有理性の公理の下では、決定はいくつかの効用関数の期待を最大化するために縮小されることを示している。
これらの公理をより構造化された逐次意思決定設定に拡張し,対応するユーティリティ関数の構造を同定する。
特に,メモリレスな選好は,トランジッション当たりの報酬という形でユーティリティにつながり,将来のリターンに乗算的要因をもたらすことを示す。
この結果は、エージェントの戻り値にこの構造を持つマルコフ決定過程(MDPs)の一般化を動機付け、Affine-Reward MDPsと呼ぶ。
MDPのスカラー報酬の累積和を回復するためには、選好に対する強い制約が必要である。
より強い制約は、潜在的関数と呼ばれる状態のある種の関数の違いの形でゴール探索エージェントのユーティリティ関数を単純化する。
我々は,vnmの合理性公理に公理を加えることで,強化学習における合理的エージェントの設計の基盤となる報酬仮説を解明し,逐次意思決定を含むai研究の新たな方向性を示唆する。
関連論文リスト
- QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - A Semantic Approach to Decidability in Epistemic Planning (Extended
Version) [72.77805489645604]
我々は決定可能性を達成するために新しい意味論的アプローチを用いる。
具体的には、知識の論理S5$_n$と(知識)可換性と呼ばれる相互作用公理を拡大する。
我々は,本フレームワークが,独立した知識である共通知識の有限的非固定点的特徴を認めていることを証明した。
論文 参考訳(メタデータ) (2023-07-28T11:26:26Z) - Leveraging Task Structures for Improved Identifiability in Neural Network Representations [31.863998589693065]
教師あり学習における識別可能性の理論を,タスクの分布にアクセスできる結果を考慮して拡張する。
一般マルチタスク回帰設定において線形識別性が達成可能であることを示す。
論文 参考訳(メタデータ) (2023-06-26T17:16:50Z) - Decomposing Counterfactual Explanations for Consequential Decision
Making [11.17545155325116]
我々は、IMFと強い因果的前提の間のギャップを埋める、新しく実践的な枠組みを開発する。
textttは、共変特徴の潜在表現をアンタングルすることで、recoursesを生成する。
実世界のデータに関する我々の実験は、理論上動機づけられたリコースモデルと相関し、信頼性と低コストのリコースを提供するフレームワークの能力を強調します。
論文 参考訳(メタデータ) (2022-11-03T21:26:55Z) - Benefits of Permutation-Equivariance in Auction Mechanisms [90.42990121652956]
競売人の収益を最大化しつつ、競売人の過去の後悔を最小限にする競売メカニズムは、経済学において重要であるが複雑な問題である。
ニューラルネットワークによる最適なオークションメカニズムの学習を通じて、注目すべき進歩が達成されている。
論文 参考訳(メタデータ) (2022-10-11T16:13:25Z) - Reinforcement Learning in Linear MDPs: Constant Regret and
Representation Selection [136.4014229319618]
線形構造を持つ有限水平マルコフ決定過程(MDPs)における後悔最小化における状態-作用値関数の表現の役割について検討する。
まず,線形報酬関数を持つ任意のMDPにおいて,一貫した後悔を実現するために,Universally spaning optimal features (UNISOFT) と呼ばれる表現に必要条件を導出する。
論文 参考訳(メタデータ) (2021-10-27T22:07:08Z) - Alternative Microfoundations for Strategic Classification [33.67797984699066]
完全な情報を持つ合理的なエージェントは、決定規則に対する集合的応答において不連続を生じさせることを示す。
標準的なマイクロファウンデーションの下での最適決定ルールは、社会的負担として知られる負の外部性の尺度を最大化する。
我々のモデルは、分析的トラクタビリティを保持し、安定点に関するより堅牢な洞察をもたらし、最適性において社会的負担を低くする。
論文 参考訳(メタデータ) (2021-06-24T00:30:58Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Decisions, Counterfactual Explanations and Strategic Behavior [16.980621769406923]
戦略的な設定で実用性の観点から最適な政策と対実的な説明を見つける。
事前に定義されたポリシーを考えると、最適の対実的説明の集合を見つける問題はNPハードであることが示される。
本研究では,マトロイド制約を問題定式化に組み込むことで,最適対実的説明セットの多様性を高めることができることを示した。
論文 参考訳(メタデータ) (2020-02-11T12:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。