論文の概要: Learning in Repeated Multi-Objective Stackelberg Games with Payoff Manipulation
- arxiv url: http://arxiv.org/abs/2508.14705v1
- Date: Wed, 20 Aug 2025 13:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.467115
- Title: Learning in Repeated Multi-Objective Stackelberg Games with Payoff Manipulation
- Title(参考訳): ペイオフ操作による繰り返し多目的Stackelbergゲームにおける学習
- Authors: Phurinut Srisawad, Juergen Branke, Long Tran-Thanh,
- Abstract要約: 繰り返し多目的のStackelbergゲームにおけるペイオフ操作について検討する。
複数の目的に対する嗜好を表す従者の効用関数は未知だが線形であると仮定する。
このことは、優先順位決定と即時効用最大化のバランスをとる必要があるリーダーに、シーケンシャルな意思決定の課題をもたらす。
- 参考スコア(独自算出の注目度): 14.075415609709127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study payoff manipulation in repeated multi-objective Stackelberg games, where a leader may strategically influence a follower's deterministic best response, e.g., by offering a share of their own payoff. We assume that the follower's utility function, representing preferences over multiple objectives, is unknown but linear, and its weight parameter must be inferred through interaction. This introduces a sequential decision-making challenge for the leader, who must balance preference elicitation with immediate utility maximisation. We formalise this problem and propose manipulation policies based on expected utility (EU) and long-term expected utility (longEU), which guide the leader in selecting actions and offering incentives that trade off short-term gains with long-term impact. We prove that under infinite repeated interactions, longEU converges to the optimal manipulation. Empirical results across benchmark environments demonstrate that our approach improves cumulative leader utility while promoting mutually beneficial outcomes, all without requiring explicit negotiation or prior knowledge of the follower's utility function.
- Abstract(参考訳): 複数目的のStackelbergゲームにおいて、リーダーが自分のペイオフのシェアを提供することで、フォロワーの決定論的ベストレスポンスに戦略的に影響を与える可能性がある場合のペイオフ操作について検討する。
複数の目的に対する嗜好を表す従者の効用関数は未知だが線形であり、その重みパラメータは相互作用によって推測されなければならないと仮定する。
このことは、優先順位決定と即時効用最大化のバランスをとる必要があるリーダーに、シーケンシャルな意思決定の課題をもたらす。
我々は、この問題を定式化し、予測ユーティリティ(EU)と長期予測ユーティリティ(EU)に基づく操作ポリシーを提案し、リーダーが行動の選択を指導し、短期的な利益を長期的な影響で引き離すインセンティブを提供する。
無限の繰り返し相互作用の下では、longEUは最適な操作に収束する。
ベンチマーク環境全体にわたる実証的な結果から,提案手法は相互に有益な成果を推進しながら累積的リーダの実用性の向上を図っている。
関連論文リスト
- MultiScale Contextual Bandits for Long Term Objectives [36.85989221657821]
マルチスケール政策学習のフレームワークを導入し、複数の時間スケールでフィードバックを動作させ、最適化する必要があるAIシステムを文脈的に整合させる。
より豊富なデータを持つ低い時間スケールが、より高速な学習のために、データ依存の階層的事前を提供する方法を示す。
論文 参考訳(メタデータ) (2025-03-22T07:03:45Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Contrastive Learning Method for Sequential Recommendation based on Multi-Intention Disentanglement [5.734747179463411]
MIDCL(Multi-Intention Disentanglement)に基づくコントラスト学習シーケンシャルレコメンデーション手法を提案する。
私たちの仕事では、意図は動的で多様なものとして認識され、ユーザの振る舞いは、しばしば現在のマルチインテンションによって駆動されます。
本稿では,最も関連性の高いユーザの対話的意図の探索と,正のサンプル対の相互情報の最大化のための2種類のコントラスト学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-28T15:13:36Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Stateful Strategic Regression [20.7177095411398]
結果のゲームにおけるスタックルバーグ均衡を記述し、計算のための新しいアルゴリズムを提供する。
分析の結果,ゲームの結果を形作る上でのマルチインタラクションの役割について,いくつかの興味深い知見が得られた。
最も重要なことは、処理時に複数ラウンドの相互作用を行うことで、主成分は、目的の方向に努力を蓄積するために、エージェントにインセンティブを与えるのにより効果的であることを示すことである。
論文 参考訳(メタデータ) (2021-06-07T17:46:29Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。