論文の概要: Stochastic Bilevel Optimization with Lower-Level Contextual Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2406.01575v1
- Date: Mon, 3 Jun 2024 17:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 21:41:25.455706
- Title: Stochastic Bilevel Optimization with Lower-Level Contextual Markov Decision Processes
- Title(参考訳): 低レベルマルコフ決定過程を用いた確率的二値最適化
- Authors: Vinzenz Thoma, Barna Pasztor, Andreas Krause, Giorgia Ramponi, Yifan Hu,
- Abstract要約: 本稿では,2段階決定モデルである文脈マルコフ決定プロセス(BO-CMDP)を用いた二段階最適化を提案する。
BO-CMDP は Stackelberg Game と見ることができ、リーダーとリーダーのコントロールを超えたランダムなコンテキストが(多く) MDP のセットアップを決定する。
本稿では,BO-CMDP の解法として Hyper Policy Descent (HPGD) アルゴリズムを提案し,その収束性を示す。
- 参考スコア(独自算出の注目度): 42.22085862132403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In various applications, the optimal policy in a strategic decision-making problem depends both on the environmental configuration and exogenous events. For these settings, we introduce Bilevel Optimization with Contextual Markov Decision Processes (BO-CMDP), a stochastic bilevel decision-making model, where the lower level consists of solving a contextual Markov Decision Process (CMDP). BO-CMDP can be viewed as a Stackelberg Game where the leader and a random context beyond the leader's control together decide the setup of (many) MDPs that (potentially multiple) followers best respond to. This framework extends beyond traditional bilevel optimization and finds relevance in diverse fields such as model design for MDPs, tax design, reward shaping and dynamic mechanism design. We propose a stochastic Hyper Policy Gradient Descent (HPGD) algorithm to solve BO-CMDP, and demonstrate its convergence. Notably, HPGD only utilizes observations of the followers' trajectories. Therefore, it allows followers to use any training procedure and the leader to be agnostic of the specific algorithm used, which aligns with various real-world scenarios. We further consider the setting when the leader can influence the training of followers and propose an accelerated algorithm. We empirically demonstrate the performance of our algorithm.
- Abstract(参考訳): 様々な応用において、戦略的意思決定問題における最適政策は、環境構成と外因性事象の両方に依存する。
これらの設定に対して、文脈マルコフ決定プロセス(BO-CMDP)を用いた二段階最適化(BO-CMDP)を導入する。
BO-CMDPは、リーダーとリーダーのコントロールを超えたランダムなコンテキストが、(潜在的に複数の)フォロワーが最も反応する(多くの)MDPのセットアップを決定する、スタックルバーグゲームと見なすことができる。
このフレームワークは、従来の二段階最適化を超えて、MDPのモデル設計、税制設計、報酬形成、動的メカニズム設計など、さまざまな分野に関連性を見出す。
本稿では,BO-CMDPを解くための確率的ハイパーポリシーグラディエントDescent (HPGD)アルゴリズムを提案し,その収束性を実証する。
特にHPGDは、フォロワーの軌跡の観察のみを利用する。
そのため、フォロワーは任意のトレーニング手順を使用でき、リーダーはさまざまな現実世界のシナリオに合わせて使用する特定のアルゴリズムを知らない。
さらに,リーダがフォロワーのトレーニングに影響を及ぼすような設定も検討し,高速化されたアルゴリズムを提案する。
アルゴリズムの性能を実証的に示す。
関連論文リスト
- Balancing Optimality and Diversity: Human-Centered Decision Making through Generative Curation [6.980546503227467]
本稿では,量的・質的両面を統合することにより,決定オプションの真の望ましさを最適化する生成キュレーションという新しい枠組みを導入する。
提案手法は,多種多様な準最適動作を効率的にサンプリングするための分配$pi$を生成する生成ニューラルネットワークアーキテクチャと,反復的に解を生成する逐次最適化手法である。
提案手法を広範囲なデータセットで検証し,複雑な環境にまたがる意思決定プロセスの強化の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-17T20:13:32Z) - Tackling Decision Processes with Non-Cumulative Objectives using Reinforcement Learning [0.0]
我々は,非累積マルコフ決定過程を標準MDPに一般化したマッピングを導入する。
これにより、MDPがより大規模なNCMDPに直接適用されるための最適なポリシーを見つけるために開発されたすべての技術が利用可能となる。
我々は、古典的な制御、金融におけるポートフォリオ最適化、離散最適化問題など、様々なタスクのアプリケーションを示す。
論文 参考訳(メタデータ) (2024-05-22T13:01:37Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Contextual Stochastic Bilevel Optimization [50.36775806399861]
文脈情報と上層変数の期待を最小化する2レベル最適化フレームワークCSBOを導入する。
メタラーニング、パーソナライズドラーニング、エンド・ツー・エンドラーニング、Wassersteinはサイド情報(WDRO-SI)を分散的に最適化している。
論文 参考訳(メタデータ) (2023-10-27T23:24:37Z) - Policy Gradient With Serial Markov Chain Reasoning [10.152838128195468]
我々は,強化学習における意思決定を反復的推論プロセスとして行う新しい枠組みを導入する。
従来のRLには本質的に欠落しているいくつかの有用な特性があることを示す。
提案アルゴリズムは,人気の高いMujocoおよびDeepMind Controlベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T06:15:29Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。