論文の概要: PPA-Game: Characterizing and Learning Competitive Dynamics Among Online Content Creators
- arxiv url: http://arxiv.org/abs/2403.15524v2
- Date: Tue, 15 Jul 2025 09:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.662964
- Title: PPA-Game: Characterizing and Learning Competitive Dynamics Among Online Content Creators
- Title(参考訳): PPA-Game:オンラインコンテンツクリエータ間の競合ダイナミクスの特性と学習
- Authors: Renzhe Xu, Haotian Wang, Xingxuan Zhang, Bo Li, Peng Cui,
- Abstract要約: 本稿では, PPA-Game(Proportional Payoff Allocation Game)について紹介する。
こうしたダイナミクスは、YouTubeやTikTokなどのオンラインレコメンデーションシステム上でコンテンツクリエイターをシミュレートする。
本稿では,各エージェントの累積支払をT$ラウンドで行うことを容易にするオンラインアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 32.27173842175003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the Proportional Payoff Allocation Game (PPA-Game), which characterizes situations where agents compete for divisible resources. In the PPA-game, agents select from available resources, and their payoffs are proportionately determined based on heterogeneous weights attributed to them. Such dynamics simulate content creators on online recommender systems like YouTube and TikTok, who compete for finite consumer attention, with content exposure reliant on inherent and distinct quality. We first conduct a game-theoretical analysis of the PPA-Game. While the PPA-Game does not always guarantee the existence of a pure Nash equilibrium (PNE), we identify prevalent scenarios ensuring its existence. Simulated experiments further prove that the cases where PNE does not exist rarely happen. Beyond analyzing static payoffs, we further discuss the agents' online learning about resource payoffs by integrating a multi-player multi-armed bandit framework. We propose an online algorithm facilitating each agent's maximization of cumulative payoffs over $T$ rounds. Theoretically, we establish that the regret of any agent is bounded by $O(\log^{1 + \eta} T)$ for any $\eta > 0$. Empirical results further validate the effectiveness of our online learning approach.
- Abstract(参考訳): 本稿では,PPA-Game(Proportional Payoff Allocation Game)について述べる。
PPAゲームでは、エージェントは利用可能なリソースから選択し、それらの支払いはそれらに起因する不均一な重みに基づいて比例的に決定される。
こうしたダイナミックスは、YouTubeやTikTokなどのオンラインレコメンデーションシステム上でコンテンツクリエイターをシミュレートする。
まず,PPA-Gameのゲーム理論解析を行う。
PPA-Gameは必ずしも純粋なナッシュ均衡(PNE)の存在を保証しないが、我々はその存在を保証する一般的なシナリオを特定する。
シミュレーション実験により、PNEが存在しない場合はほとんど起こらないことが証明される。
静的なペイオフの分析以外にも、マルチプレイヤーのマルチアームバンディットフレームワークを統合することで、エージェントのリソースペイオフに関するオンライン学習についても議論する。
本稿では,各エージェントの累積支払額の最大化を容易にするオンラインアルゴリズムを提案する。
理論的には、任意のエージェントの後悔は任意の$\eta > 0$に対して$O(\log^{1 + \eta} T)$で束縛される。
実験結果は,オンライン学習手法の有効性をさらに検証する。
関連論文リスト
- Last-Iterate Convergence of No-Regret Learning for Equilibria in Bargaining Games [0.0]
正規化リーダをフォローするアルゴリズムは,様々なゲームにおいて最後にナッシュ平衡に収束することを示す。
この研究は、単純な学習アルゴリズムを用いて、複雑な経済行動がもたらす影響を実証する。
論文 参考訳(メタデータ) (2025-07-03T20:12:59Z) - Competitive Multi-armed Bandit Games for Resource Sharing [17.986928810925686]
現代の資源共有システムでは、複数のエージェントが未知の状態の限られたリソースにアクセスしてタスクを実行する。
本稿では,N-player K-arm competitive MAB gameについて検討し,N-myopic player(エージェント)が互いに競い合い,未知の腕の多様な個人推定を行う。
論文 参考訳(メタデータ) (2025-03-26T20:35:18Z) - Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
マルチステップ優先最適化(MPO)は、自然なアクター批判フレームワークciteprakhlin2013online,joulani17a上に構築されている。
我々はOMPOが$mathcalO(epsilon-1)$ポリシー更新を必要とし、$epsilon$-approximate Nash平衡に収束することを示した。
また,本手法がマルチターン会話データセットと数理推論データセットに与える影響についても検証した。
論文 参考訳(メタデータ) (2025-02-18T09:33:48Z) - Principal-Agent Bandit Games with Self-Interested and Exploratory Learning Agents [16.514561132180134]
本研究では,エージェントが武器を弾くためのインセンティブを提案することで,主役が未知の環境と間接的に対話する繰り返しプリンシパル・エージェント・バンディットゲームについて検討する。
既存の作業の多くは、エージェントが報酬手段について十分な知識を持っていると仮定し、常に欲張りに振る舞うが、多くのオンラインマーケットプレースでは、エージェントは未知の環境を学び、時には探索する必要がある。
そこで我々は,報酬推定を反復的に更新する探索行動を持つ自己関心学習エージェントをモデル化し,推定報酬プラスインセンティブを最大化するアームを選択するか,一定の確率で任意に探索するアームを選択する。
論文 参考訳(メタデータ) (2024-12-20T20:04:50Z) - Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - Provably Efficient Generalized Lagrangian Policy Optimization for Safe
Multi-Agent Reinforcement Learning [105.7510838453122]
制約付きマルコフゲームを用いたオンライン安全なマルチエージェント強化学習について検討する。
我々は,このラグランジアン問題を解くための高信頼強化学習アルゴリズムを開発した。
提案アルゴリズムは,オンラインミラー降下によるミニマックス決定主元変数と,投影勾配ステップによる双対変数を更新する。
論文 参考訳(メタデータ) (2023-05-31T22:09:24Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Modelling Cournot Games as Multi-agent Multi-armed Bandits [4.751331778201811]
繰り返しCournot oligopolyゲームにおけるマルチエージェントマルチアーム・バンディット(MA-MAB)の設定について検討した。
私たちは、$epsilon$-greedyアプローチが、従来のMABアプローチよりもより実行可能な学習メカニズムを提供することに気付きました。
順序付けられたアクション空間を利用する新しいアプローチとして、$epsilon$-greedy+HLと$epsilon$-greedy+ELを提案する。
論文 参考訳(メタデータ) (2022-01-01T22:02:47Z) - Can Reinforcement Learning Find Stackelberg-Nash Equilibria in
General-Sum Markov Games with Myopic Followers? [156.5760265539888]
我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーに指名されたプレイヤーとフォロワーに指名されたプレイヤーの1人を用いて研究した。
そのようなゲームに対して、我々のゴールは、政策対 $(pi*, nu*)$ であるスタックルバーグ・ナッシュ均衡 (SNE) を見つけることである。
オンラインとオフラインの両方でSNEを解くために,サンプル効率強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-27T05:41:14Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Provably Efficient Reinforcement Learning in Decentralized General-Sum
Markov Games [5.205867750232226]
本稿では,一般のマルコフゲームにおいて平衡を効率的に学習する問題に対処する。
本稿では,各エージェントが独立して楽観的なV-ラーニングを実行し,未知の環境を効率的に探索するアルゴリズムを提案する。
エージェントは少なくとも$widetildeO(H6S A /epsilon2)$ episodesで$epsilon$-approximate CCEを見つけることができる。
論文 参考訳(メタデータ) (2021-10-12T02:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。