論文の概要: Scalable Policy Maximization Under Network Interference
- arxiv url: http://arxiv.org/abs/2505.18118v1
- Date: Fri, 23 May 2025 17:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.24676
- Title: Scalable Policy Maximization Under Network Interference
- Title(参考訳): ネットワーク干渉下におけるスケーラブルなポリシーの最大化
- Authors: Aidan Gleich, Eric Laber, Alexander Volfovsky,
- Abstract要約: 動的ネットワーク上での干渉下での最適政治学習について検討する。
干渉の構造に関する一般的な仮定では、報酬は線形となる。
我々は,新しい$n$ノードネットワークが各ラウンドで観測された場合に,ポリシーの影響を最大化するスケーラブルなトンプソンサンプリングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 46.16641537379657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many interventions, such as vaccines in clinical trials or coupons in online marketplaces, must be assigned sequentially without full knowledge of their effects. Multi-armed bandit algorithms have proven successful in such settings. However, standard independence assumptions fail when the treatment status of one individual impacts the outcomes of others, a phenomenon known as interference. We study optimal-policy learning under interference on a dynamic network. Existing approaches to this problem require repeated observations of the same fixed network and struggle to scale in sample size beyond as few as fifteen connected units -- both limit applications. We show that under common assumptions on the structure of interference, rewards become linear. This enables us to develop a scalable Thompson sampling algorithm that maximizes policy impact when a new $n$-node network is observed each round. We prove a Bayesian regret bound that is sublinear in $n$ and the number of rounds. Simulation experiments show that our algorithm learns quickly and outperforms existing methods. The results close a key scalability gap between causal inference methods for interference and practical bandit algorithms, enabling policy optimization in large-scale networked systems.
- Abstract(参考訳): 臨床試験のワクチンやオンラインマーケットでのクーポンのような多くの介入は、その効果を十分に知ることなく順次割り当てなければならない。
マルチアームバンディットアルゴリズムはそのような設定で成功している。
しかし、標準的な独立仮定は、ある個人の治療状態が他人の結果に影響を与えるときに失敗し、干渉と呼ばれる現象である。
動的ネットワーク上での干渉下での最適政治学習について検討する。
この問題に対する既存のアプローチでは、同じ固定ネットワークの繰り返し観測が必要であり、最大15個の連結ユニットを超えるサンプルサイズでスケールするのに苦労する。
干渉の構造に関する一般的な仮定では、報酬は線形となる。
これにより,新しい$n$ノードネットワークが各ラウンドで観測された場合のポリシーへの影響を最大化する,スケーラブルなトンプソンサンプリングアルゴリズムの開発が可能となる。
我々は、$n$とラウンド数で下線となるベイズ的後悔境界を証明する。
シミュレーション実験により,本アルゴリズムは既存の手法を高速に学習し,性能を向上することを示した。
その結果、干渉の因果推論法と実践的帯域幅アルゴリズムの間に重要なスケーラビリティのギャップを埋め、大規模ネットワークシステムにおけるポリシー最適化を可能にした。
関連論文リスト
- Bayesian Estimation of Causal Effects Using Proxies of a Latent Interference Network [0.39462888523270856]
ネットワーク干渉は、ある単位に割り当てられた治療が他の単位の結果に影響を与える場合に起こる。
従来のアプローチでは、観測されたネットワークが干渉構造を正しく特定していると仮定することが多い。
本稿では,プロキシネットワークのみが利用できる場合の因果関係を推定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T09:46:30Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Multi-Armed Bandits with Network Interference [5.708360037632367]
我々は,学習者が$mathcalA$アクション(カウント)を$T$ラウンド以上の$N$ユニット(グッド)に逐次割り当てて,後悔を最小限に抑えるマルチアームバンディット(MAB)問題について検討する。
従来のMAB問題とは異なり、各ユニットの報酬は他のユニットに割り当てられた処理に依存する。
後悔を最小限に抑えるため、単純で線形回帰に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-28T22:01:50Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Interacting Particle Systems on Networks: joint inference of the network
and the interaction kernel [8.535430501710712]
エージェント間の相互作用のルールを決定するネットワークとシステムの重み行列を推論する。
我々は2つのアルゴリズムを使用する: 1つは演算子回帰と呼ばれる新しいアルゴリズムで、最小2乗のデータを交互に更新する。
どちらのアルゴリズムも、識別可能性と適正性を保証するスケーラブルな条件である。
論文 参考訳(メタデータ) (2024-02-13T12:29:38Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - A Fast Algorithm for Moderating Critical Nodes via Edge Removal [19.130541561303293]
対象ノードの情報集中度を最小限に抑えるために,ネットワークから$k$エッジを除去する問題について検討する。
ランダムウォークに基づくシュア補数近似や高速和推定などの新しい手法を用いて、3つの近似グリードアルゴリズムを提案する。
理論的解析を補完するため、100万以上のノードを持つ合成および実ネットワークに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2023-09-09T13:54:34Z) - Exploring Adversarial Attacks on Neural Networks: An Explainable
Approach [18.063187159491182]
入力画像に逆ノイズと統計的に類似したガウスランダムノイズを混合した場合のVGG-16モデルの応答特性を解析する。
私たちの研究は、より信頼性の高いディープニューラルネットワーク(DNN)モデルの開発に関する貴重な洞察を提供することができます。
論文 参考訳(メタデータ) (2023-03-08T07:59:44Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Online Adversarial Attacks [57.448101834579624]
我々は、実世界のユースケースで見られる2つの重要な要素を強調し、オンライン敵攻撃問題を定式化する。
まず、オンライン脅威モデルの決定論的変種を厳格に分析する。
このアルゴリズムは、現在の最良の単一しきい値アルゴリズムよりも、$k=2$の競争率を確実に向上させる。
論文 参考訳(メタデータ) (2021-03-02T20:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。