論文の概要: Mixing Any Cocktail with Limited Ingredients: On the Structure of Payoff Sets in Multi-Objective MDPs and its Impact on Randomised Strategies
- arxiv url: http://arxiv.org/abs/2502.18296v1
- Date: Tue, 25 Feb 2025 15:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:20:48.966655
- Title: Mixing Any Cocktail with Limited Ingredients: On the Structure of Payoff Sets in Multi-Objective MDPs and its Impact on Randomised Strategies
- Title(参考訳): 限定品とコクテルを混合する:多目的MDPのペイオフセットの構造とランダム化戦略への影響について
- Authors: James C. A. Main, Mickael Randour,
- Abstract要約: 多次元のペイオフ関数が与えられた全ての戦略の期待されるペイオフベクトルの集合の構造について検討する。
すべての戦略の下で期待される支払いが有限である任意のペイオフに対して、期待されるペイオフは、有限個の戦略を正確に混合することで得られる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We consider multi-dimensional payoff functions in Markov decision processes, and ask whether a given expected payoff vector can be achieved or not. In general, pure strategies (i.e., not resorting to randomisation) do not suffice for this problem. We study the structure of the set of expected payoff vectors of all strategies given a multi-dimensional payoff function and its consequences regarding randomisation requirements for strategies. In particular, we prove that for any payoff for which the expectation is well-defined under all strategies, it is sufficient to mix (i.e., randomly select a pure strategy at the start of a play and committing to it for the rest of the play) finitely many pure strategies to approximate any expected payoff vector up to any precision. Furthermore, for any payoff for which the expected payoff is finite under all strategies, any expected payoff can be obtained exactly by mixing finitely many strategies.
- Abstract(参考訳): マルコフ決定過程における多次元ペイオフ関数を考察し、与えられた期待ペイオフベクトルが達成できるかどうかを問う。
一般に、純粋な戦略(すなわち、ランダム化に頼らない)はこの問題に十分ではない。
多次元のペイオフ関数が与えられた全ての戦略の期待されるペイオフベクトルの集合の構造とその戦略のランダム化要求に関する結果について検討する。
特に、全ての戦略の下で期待が適切に定義されている任意のペイオフに対して、任意の精度で期待されるペイオフベクトルを近似する有限数の純粋な戦略(すなわち、プレイの開始時に純粋な戦略をランダムに選択し、プレイの残りにコミットする)を混在させることは十分であることを示す。
さらに、全ての戦略の下で期待されるペイオフが有限である任意のペイオフに対して、期待されるペイオフは、有限個の戦略を正確に混合することで得られる。
関連論文リスト
- Ensembling Portfolio Strategies for Long-Term Investments: A Distribution-Free Preference Framework for Decision-Making and Algorithms [0.0]
本稿では、長期的富という観点から個別の戦略を上回るために、逐次的ポートフォリオのための複数の戦略をまとめることの問題点について考察する。
我々は,市場条件にかかわらず,戦略を組み合わせるための新たな意思決定枠組みを導入する。
シャープ比の小さなトレードオフがあるにもかかわらず、提案した戦略を支持する結果を示す。
論文 参考訳(メタデータ) (2024-06-05T23:08:57Z) - Generalized Hybrid Search and Applications to Blockchain and Hash
Function Security [50.16790546184646]
まず,ハイブリッド量子古典戦略を用いて,様々な探索問題を解くことの難しさについて検討する。
次に、ハイブリッド量子古典探索アルゴリズムを構築し、その成功確率を解析する。
論文 参考訳(メタデータ) (2023-11-07T04:59:02Z) - Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits [81.60136088841948]
本稿では,時間軸における後悔を最小限に抑えるアルゴリズムを提案する。
提案アルゴリズムは,レコメンデーションシステムや交通機関などの分野に適用可能である。
論文 参考訳(メタデータ) (2023-01-31T03:49:00Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Near-Optimal No-Regret Learning for General Convex Games [121.50979258049135]
一般凸およびコンパクト戦略集合に対して後悔が得られることを示す。
我々の力学は、適度にエンハンリフトされた空間上の楽観的な従順化バウンドのインスタンス化にある。
先行結果が適用される特殊な場合であっても、我々のアルゴリズムは最先端の後悔よりも改善される。
論文 参考訳(メタデータ) (2022-06-17T12:58:58Z) - Provably Efficient Offline Multi-agent Reinforcement Learning via
Strategy-wise Bonus [48.34563955829649]
本稿では,共同戦略の信頼区間を構築する戦略的な集中原理を提案する。
2人のプレイヤーによるゼロサムマルコフゲームの場合、戦略的なボーナスの凸性を利用して効率的なアルゴリズムを提案する。
すべてのアルゴリズムは、指定済みの戦略クラスである$Pi$を入力として取り、最良の戦略に近い戦略を$Pi$で出力することができる。
論文 参考訳(メタデータ) (2022-06-01T00:18:15Z) - Strategy Complexity of Point Payoff, Mean Payoff and Total Payoff
Objectives in Countable MDPs [0.0]
実数値遷移報酬を用いた無数無限マルコフ決定過程(MDP)について検討する。
それぞれのペイオフタイプに対して、$liminf$が非負である確率を最大化することが目的である。
記憶のない決定論的戦略で勝つ場合もあり、ステップカウンタ、報酬カウンタ、あるいはその両方を必要とする場合もある。
論文 参考訳(メタデータ) (2022-03-10T19:17:05Z) - Strategy Complexity of Mean Payoff, Total Payoff and Point Payoff
Objectives in Countable MDPs [0.0]
実数値遷移報酬を用いた無数無限マルコフ決定過程(MDP)について検討する。
それぞれのペイオフタイプに対して、$liminf$が非負である確率を最大化することが目的である。
記憶のない決定論的戦略で勝つ場合もあり、ステップカウンタ、報酬カウンタ、あるいはその両方を必要とする場合もある。
論文 参考訳(メタデータ) (2021-07-01T21:13:39Z) - Bandit Linear Optimization for Sequential Decision Making and
Extensive-Form Games [102.23975166536326]
tree-form sequential decision making (tfsdm) は、エージェントと潜在的に敵対的な環境の間のツリー形式の相互作用をモデル化することで、古典的なワンショット意思決定を拡張する。
これは、各プレイヤーが幅広い形式のゲームで直面するオンライン意思決定問題、およびマルコフ決定プロセス、およびエージェントが観測された履歴を条件とする部分観察可能なマルコフ決定プロセスをキャプチャする。
本稿では, (i) 線形時間損失と (ii) $o(sqrtt)$ cumulative regret の両方を提供する拡張dmのバンディット線形最適化問題に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T05:00:13Z) - On the Impossibility of Convergence of Mixed Strategies with No Regret
Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。
各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文 参考訳(メタデータ) (2020-12-03T18:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。