論文の概要: On Dynamic Programming Theory for Leader-Follower Stochastic Games
- arxiv url: http://arxiv.org/abs/2512.05667v1
- Date: Fri, 05 Dec 2025 12:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.018799
- Title: On Dynamic Programming Theory for Leader-Follower Stochastic Games
- Title(参考訳): リーダーフォロワー確率ゲームのための動的プログラミング理論について
- Authors: Jilles Steeve Dibangoye, Thibaut Le Marre, Ocan Sankur, François Schwarzentruber,
- Abstract要約: LF-GSSG(Lead-follower General-sum Game)は、非対称なコミットメントの下でのシーケンシャルな意思決定をモデル化するゲームである。
本稿では,ベルマンを信頼可能な集合状態の抽象化に適用する動的プログラミングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.079626733116612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leader-follower general-sum stochastic games (LF-GSSGs) model sequential decision-making under asymmetric commitment, where a leader commits to a policy and a follower best responds, yielding a strong Stackelberg equilibrium (SSE) with leader-favourable tie-breaking. This paper introduces a dynamic programming (DP) framework that applies Bellman recursion over credible sets-state abstractions formally representing all rational follower best responses under partial leader commitments-to compute SSEs. We first prove that any LF-GSSG admits a lossless reduction to a Markov decision process (MDP) over credible sets. We further establish that synthesising an optimal memoryless deterministic leader policy is NP-hard, motivating the development of ε-optimal DP algorithms with provable guarantees on leader exploitability. Experiments on standard mixed-motive benchmarks-including security games, resource allocation, and adversarial planning-demonstrate empirical gains in leader value and runtime scalability over state-of-the-art methods.
- Abstract(参考訳): リーダー-フォロワーの一般確率ゲーム(LF-GSSGs)は、非対称なコミットメントの下で連続的な意思決定をモデル化する。
本稿では,SSEを計算するための部分的リーダのコミットメントの下で,すべての合理的な追従者ベストレスポンスを形式的に表現する,信頼可能な集合状態抽象化に対してベルマン再帰を適用する動的プログラミング(DP)フレームワークを提案する。
まず,任意のLF-GSSGが,信頼可能な集合に対するマルコフ決定過程(MDP)の損失を減少させることを証明した。
さらに、最適なメモリレス決定論的リーダーポリシーの合成はNPハードであり、リーダーの攻撃性を保証するε最適化DPアルゴリズムの開発を動機付けている。
標準的な混合モチベーションベンチマーク(セキュリティゲーム、リソース割り当て、敵の計画実証を含む)の実験は、最先端のメソッドよりもリーダの価値と実行時のスケーラビリティを実証的に向上させる。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Generating Fair Consensus Statements with Social Choice on Token-Level MDPs [7.5036512760759715]
タスクを多目的トークンレベルマルコフ決定プロセス(MDP)としてモデル化する。
各エージェントに対するトークンレベルの報酬は、それぞれのポリシー(例えば、パーソナライズされた言語モデル)から導かれる。
このアプローチは、そのようなポリシーが最適Q-函数を暗黙的に定義し、値関数なしで各生成ステップでの報酬を定量化する原則的な方法を提供する。
論文 参考訳(メタデータ) (2025-10-15T21:23:18Z) - Learning in Stackelberg Mean Field Games: A Non-Asymptotic Analysis [22.360309142419208]
Stackelberg平均フィールドゲーム(MFG)におけるポリシー最適化について検討する。
本稿では,連続的に生成するマルコフサンプルを利用するシングルループアクター批判アルゴリズムAC-SMFGを提案する。
アルゴリズムの有限時間および有限サンプル収束をスタックルバーグ目標の定常点に確立する。
論文 参考訳(メタデータ) (2025-09-18T19:58:31Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Contextual Bilevel Reinforcement Learning for Incentive Alignment [42.22085862132403]
両レベルの意思決定モデルであるCB-RL(Contextual Bilevel Reinforcement Learning)を導入する。
CB-RL は Stackelberg Game と見ることができ、リーダーとリーダーのコントロールを超えたランダムなコンテキストが同時に多くの MDP の設定を決定する。
このフレームワークは、従来の二段階最適化を超えて、報酬形成、契約理論、メカニズム設計といった様々な分野に関連性を見出す。
論文 参考訳(メタデータ) (2024-06-03T17:54:39Z) - Policy Iteration for Pareto-Optimal Policies in Stochastic Stackelberg Games [0.0]
一般のサムゲームにおいて、定常スタックルバーグ均衡(SSE)は常に存在するとは限らない。
既存のSSEを決定する方法は、SSEと極限の一致と収束を保証するために強い仮定を必要とする。
論文 参考訳(メタデータ) (2024-05-07T07:40:42Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Group Distributionally Robust Reinforcement Learning with Hierarchical
Latent Variables [20.078557260741988]
Group Distributionally Robust Markov Decision Process (GDR-MDP) は、潜在混合モデルを介してタスク群を符号化する柔軟な階層型 MDP の定式化である。
GDR-MDPは、タスクグループに対する最悪の有資格信念の下で、期待されるリターンを最大化する最適なポリシーを特定する。
そこで我々は,GDR-MDPにおける値ベースおよびポリシーベースのRL手法の深部RLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-21T21:34:59Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。