論文の概要: Provably Efficient Reinforcement Learning for Online Adaptive Influence
Maximization
- arxiv url: http://arxiv.org/abs/2206.14846v1
- Date: Wed, 29 Jun 2022 18:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:08:15.036266
- Title: Provably Efficient Reinforcement Learning for Online Adaptive Influence
Maximization
- Title(参考訳): オンライン適応的影響最大化のための効果的な強化学習
- Authors: Kaixuan Huang, Yu Wu, Xuezhou Zhang, Shenyinying Tu, Qingyun Wu,
Mengdi Wang, Huazheng Wang
- Abstract要約: 本稿では,リアルタイムフィードバックに基づいてシードノードを逐次活性化する,コンテンツ依存型オンライン影響問題の適応バージョンについて検討する。
提案アルゴリズムは,最適政策を楽観的に改善しつつ,ネットワークモデルの推定を保守し,適応的にシードを選択する。
- 参考スコア(独自算出の注目度): 53.11458949694947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online influence maximization aims to maximize the influence spread of a
content in a social network with unknown network model by selecting a few seed
nodes. Recent studies followed a non-adaptive setting, where the seed nodes are
selected before the start of the diffusion process and network parameters are
updated when the diffusion stops. We consider an adaptive version of
content-dependent online influence maximization problem where the seed nodes
are sequentially activated based on real-time feedback. In this paper, we
formulate the problem as an infinite-horizon discounted MDP under a linear
diffusion process and present a model-based reinforcement learning solution.
Our algorithm maintains a network model estimate and selects seed users
adaptively, exploring the social network while improving the optimal policy
optimistically. We establish $\widetilde O(\sqrt{T})$ regret bound for our
algorithm. Empirical evaluations on synthetic network demonstrate the
efficiency of our algorithm.
- Abstract(参考訳): オンラインインフルエンス最大化は、数個のシードノードを選択することで、未知のネットワークモデルによるソーシャルネットワーク内のコンテンツへの影響を最大化することを目的としている。
近年,拡散開始前に種子ノードが選択され,拡散停止時にネットワークパラメータが更新される非適応設定が研究されている。
実時間フィードバックに基づいてシードノードを逐次活性化するコンテンツ依存型オンライン影響最大化問題の適応版を考える。
本稿では,線形拡散過程において無限水平割引MDPとして問題を定式化し,モデルに基づく強化学習ソリューションを提案する。
提案アルゴリズムは, ネットワークモデルの推定値を維持し, 適応的にシードユーザを選択し, ソーシャルネットワークを探索し, 最適政策を楽観的に改善する。
我々はアルゴリズムに対して$\widetilde o(\sqrt{t})$ regret boundを確立する。
合成ネットワークにおける経験的評価は,アルゴリズムの効率を実証する。
関連論文リスト
- Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Reinforcement Learning for Node Selection in Branch-and-Bound [52.2648997215667]
現在の最先端セレクタは手作りのアンサンブルを使用して、ナイーブなサブノードセレクタと、個々のノードデータに依存する学習ノードセレクタを自動的に切り替える。
孤立ノードではなく木の状態全体を考慮しながら強化学習(RL)を用いる新しいシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2023-09-29T19:55:56Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Network Inference and Influence Maximization from Samples [20.916163957596577]
本研究では,これらの種子の拡散を最大化するために,ソーシャルネットワーク上で少数の種子ノードを選択するタスクについて検討する。
我々は,データから拡散パラメータとネットワーク構造を学習するネットワーク推論問題に対して,カスケードの新しい解を提供する。
我々のIMSアルゴリズムは, 拡散パラメータの学習が困難な場合でも, 一定の近似比を許容することにより, 学習と最適化のアプローチを強化する。
論文 参考訳(メタデータ) (2021-06-07T08:06:36Z) - Influence Maximization Under Generic Threshold-based Non-submodular
Model [1.5780411262109524]
社会的影響の概念は、ソーシャルネットワークから最も影響力のあるノード(シードノード)の数を選択し、彼らが共同で最大の影響の拡散をトリガーできるようにすることです。
本稿では,ネットワークグラフを用いた一般化されたしきい値ベースモデルであるインフルエンサーバリケードモデルにおける種選択戦略を提案する。
私たちの知る限りでは、これは非サブモジュラーな影響を直接取り扱う最初のグラフベースのアプローチです。
論文 参考訳(メタデータ) (2020-12-18T16:14:49Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Iterative Surrogate Model Optimization (ISMO): An active learning
algorithm for PDE constrained optimization with deep neural networks [14.380314061763508]
反復代理モデル最適化(ISMO)と呼ばれる新しい能動学習アルゴリズムを提案する。
このアルゴリズムはディープニューラルネットワークに基づいており、その重要な特徴は、ディープニューラルネットワークと基礎となる標準最適化アルゴリズムの間のフィードバックループを通じて、トレーニングデータの反復的な選択である。
論文 参考訳(メタデータ) (2020-08-13T07:31:07Z) - Resource Allocation via Graph Neural Networks in Free Space Optical
Fronthaul Networks [119.81868223344173]
本稿では,自由空間光(FSO)フロントホールネットワークにおける最適資源割り当てについて検討する。
我々は、FSOネットワーク構造を利用するために、ポリシーパラメータ化のためのグラフニューラルネットワーク(GNN)を検討する。
本アルゴリズムは,システムモデルに関する知識が不要なモデルフリーでGNNを訓練するために開発された。
論文 参考訳(メタデータ) (2020-06-26T14:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。