論文の概要: Individualized Policy Evaluation and Learning under Clustered Network
Interference
- arxiv url: http://arxiv.org/abs/2311.02467v2
- Date: Sun, 4 Feb 2024 18:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:18:59.883199
- Title: Individualized Policy Evaluation and Learning under Clustered Network
Interference
- Title(参考訳): クラスタネットワーク干渉による個別政策評価と学習
- Authors: Yi Zhang, Kosuke Imai
- Abstract要約: クラスタ化されたネットワーク干渉下での最適個別化処理ルールの評価と学習の問題点を考察する。
ITRの実証性能を評価するための推定器を提案する。
学習ITRに対する有限サンプル残差を導出し、効率的な評価推定器の使用により学習ポリシーの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 4.560284382063488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While there now exists a large literature on policy evaluation and learning,
much of prior work assumes that the treatment assignment of one unit does not
affect the outcome of another unit. Unfortunately, ignoring interference may
lead to biased policy evaluation and ineffective learned policies. For example,
treating influential individuals who have many friends can generate positive
spillover effects, thereby improving the overall performance of an
individualized treatment rule (ITR). We consider the problem of evaluating and
learning an optimal ITR under clustered network interference (also known as
partial interference) where clusters of units are sampled from a population and
units may influence one another within each cluster. Unlike previous methods
that impose strong restrictions on spillover effects, the proposed methodology
only assumes a semiparametric structural model where each unit's outcome is an
additive function of individual treatments within the cluster. Under this
model, we propose an estimator that can be used to evaluate the empirical
performance of an ITR. We show that this estimator is substantially more
efficient than the standard inverse probability weighting estimator, which does
not impose any assumption about spillover effects. We derive the finite-sample
regret bound for a learned ITR, showing that the use of our efficient
evaluation estimator leads to the improved performance of learned policies.
Finally, we conduct simulation and empirical studies to illustrate the
advantages of the proposed methodology.
- Abstract(参考訳): 現在、政策評価と学習に関する文献が多数存在するが、先行研究の多くは、ある単位の処理課題が別の単位の結果に影響を及ぼさないと仮定している。
残念ながら、干渉を無視することは、偏見のある政策評価と非効果的な学習政策につながる可能性がある。
例えば、多くの友人を持つ影響力のある個人を治療すると、ポジティブな流出効果が生じ、個別化された治療規則(ITR)の全体的な性能が向上する。
本稿では,集団ネットワーク干渉(部分的干渉)下での最適ITRの評価と学習の問題について考察する。
余剰効果に強い制約を課す従来の手法とは異なり、提案手法は、各ユニットの結果がクラスタ内の個々の処理の加算関数となる半パラメトリック構造モデルのみを仮定する。
このモデルでは、itrの実証的性能を評価するために使用できる推定器を提案する。
この推定器は標準逆確率重み推定器よりも実質的に効率的であり, 流出効果についての仮定を課さない。
学習ITRに対する有限サンプル残差を導出し、効率的な評価推定器の使用により学習ポリシーの性能が向上することを示す。
最後に,提案手法の利点を説明するためにシミュレーションと経験的研究を行う。
関連論文リスト
- Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Targeted Machine Learning for Average Causal Effect Estimation Using the
Front-Door Functional [3.0232957374216953]
結果に対する治療の平均因果効果(ACE)を評価することは、しばしば観察研究における要因の相違によって引き起こされる課題を克服することを伴う。
本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。
本研究では,早期学業成績が今後の年収に与える影響を明らかにするために,これらの推定装置の適用性を示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - Doubly Robust Estimation of Direct and Indirect Quantile Treatment
Effects with Machine Learning [0.0]
本稿では, 直接的および間接的量子的処理効果の機械学習推定器を提案する。
提案手法は,確率結果の累積分布関数の効率的なスコア関数に基づく。
また,統計的推測のための乗算器ブートストラップを提案し,乗算器の有効性を示す。
論文 参考訳(メタデータ) (2023-07-03T14:27:15Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。