論文の概要: LBCIM: Loyalty Based Competitive Influence Maximization with
epsilon-greedy MCTS strategy
- arxiv url: http://arxiv.org/abs/2303.01850v1
- Date: Fri, 3 Mar 2023 11:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 15:24:51.340352
- Title: LBCIM: Loyalty Based Competitive Influence Maximization with
epsilon-greedy MCTS strategy
- Title(参考訳): LBCIM:Epsilon-greedy MCTS戦略を用いたロイヤリティに基づく競合影響最大化
- Authors: Malihe Alavi, Farnoush Manavi, Amirhossein Ansari, Ali Hamzeh
- Abstract要約: この研究は、ソーシャルネットワークにおける忠誠を表すいくつかの新機能を備えた、2つの競合相手のための新しいゲームボードを提示する。
この行動は、各党が相手よりも良い提案をすることで人々を惹きつけようとし、野党のファンに心を変えるよう印象づけようとする、ほとんどの政治的状況で観察できる。
- 参考スコア(独自算出の注目度): 0.10587757779310168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Competitive influence maximization has been studied for several years, and
various frameworks have been proposed to model different aspects of information
diffusion under the competitive environment. This work presents a new gameboard
for two competing parties with some new features representing loyalty in social
networks and reflecting the attitude of not completely being loyal to a party
when the opponent offers better suggestions. This behavior can be observed in
most political occasions where each party tries to attract people by making
better suggestions than the opponent and even seeks to impress the fans of the
opposition party to change their minds. In order to identify the best move in
each step of the game framework, an improved Monte Carlo tree search is
developed, which uses some predefined heuristics to apply them on the
simulation step of the algorithm and takes advantage of them to search among
child nodes of the current state and pick the best one using an epsilon-greedy
way instead of choosing them at random. Experimental results on synthetic and
real datasets indicate the outperforming of the proposed strategy against some
well-known and benchmark strategies like general MCTS, minimax algorithm with
alpha-beta pruning, random nodes, nodes with maximum threshold and nodes with
minimum threshold.
- Abstract(参考訳): 競争力の最大化はここ数年研究され、競争環境下での情報拡散の異なる側面をモデル化する様々な枠組みが提案されている。
本研究は、ソーシャルネットワークにおける忠誠を象徴する新たな特徴と、相手がより良い提案をした場合に、当事者に完全に忠誠を誓わないという態度を反映した2つの競技会のための新しいゲームボードを提示する。
この行動は、各党が相手よりも良い提案をすることで人々を惹きつけようとし、さらには野党のファンに心を変えるよう促そうとする、ほとんどの政治的場面で観察される。
ゲームフレームワークの各ステップの最良の動きを特定するため、改良されたモンテカルロ木探索法が開発され、アルゴリズムのシミュレーションステップでそれらを適用するための事前定義されたヒューリスティックスを用いて、現在の状態の子ノードを探索し、ランダムに選択する代わりに、エプシロンを欲しがる方法で最良のものを選択する。
合成および実データセットに対する実験結果は、一般的なMCTS、アルファベータプルーニングによるミニマックスアルゴリズム、ランダムノード、最大しきい値のノード、最小しきい値のノードなど、よく知られたベンチマーク戦略に対する提案戦略の成果を示している。
関連論文リスト
- Decoding Game: On Minimax Optimality of Heuristic Text Generation Strategies [7.641996822987559]
我々は,テキスト生成をストラテジストとネイチャーの2プレイヤーゼロサムゲームとして再定義する,包括的な理論的枠組みであるデコードゲームを提案する。
逆数自然は可能性に対して暗黙の正則化を課し、トラルニケーション正規化法は、この正則化の下での最適戦略の第一次近似である。
論文 参考訳(メタデータ) (2024-10-04T23:18:27Z) - AlphaZeroES: Direct score maximization outperforms planning loss minimization [61.17702187957206]
実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチのファミリは、AlphaZeroとその変種で、Monte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを使用する。
複数の環境にまたがって、エピソードスコアを直接最大化し、計画損失を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2024-06-12T23:00:59Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Sampling-based Reactive Synthesis for Nondeterministic Hybrid Systems [20.0212772540119]
本稿では,非決定論的ハイブリッドシステムのためのサンプリング型戦略合成アルゴリズムを提案する。
我々は,ハイブリッドシステムの進化を,非決定主義が敵対的プレイヤーである2人プレイヤゲームとしてモデル化する。
目的は、敵プレイヤーのあらゆる可能な動きの下でゴールの満足度を保証する、勝利戦略 - 反応性(ロバスト)戦略を合成することである。
論文 参考訳(メタデータ) (2023-04-14T00:45:16Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Distributed Statistical Min-Max Learning in the Presence of Byzantine
Agents [34.46660729815201]
本稿では,ビザンチンの敵対的エージェントと競合する新たな課題に焦点をあて,マルチエージェントのmin-max学習問題を考察する。
我々の主な貢献は、滑らかな凸凹関数と滑らかな凸凸凸関数に対する頑健な外勾配アルゴリズムのクリップ解析を提供することである。
我々の利率はほぼ最適であり、敵の汚職の影響と非汚職エージェント間の協力の利益の両方を明らかにしている。
論文 参考訳(メタデータ) (2022-04-07T03:36:28Z) - Robust Optimal Classification Trees Against Adversarial Examples [5.254093731341154]
本稿では,ユーザが特定した攻撃モデルに対して最適に堅牢な決定木を訓練する手法の集合を提案する。
逆学習において生じるmin-max最適化問題は、単一最小化定式化を用いて解くことができることを示す。
また,両部マッチングを用いた任意のモデルに対して,上界の対角精度を決定する手法を提案する。
論文 参考訳(メタデータ) (2021-09-08T18:10:49Z) - Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies
in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。
この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。
各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-21T17:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。