論文の概要: Honesty in Causal Forests: When It Helps and When It Hurts
- arxiv url: http://arxiv.org/abs/2506.13107v2
- Date: Fri, 18 Jul 2025 08:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 16:39:31.911123
- Title: Honesty in Causal Forests: When It Helps and When It Hurts
- Title(参考訳): 因果樹林の正直さ
- Authors: Yanfang Hou, Carlos Fernández-Loría,
- Abstract要約: 正直な推定は、個々のレベルの治療効果推定の精度を低下させることができることを示す。
誠実さをデフォルトで使用するコストは、トレーニング済みのモデルのパフォーマンスに合わせるために、75%以上のデータを必要とすることと同じくらい高くなります。
- 参考スコア(独自算出の注目度): 1.6114012813668932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal forests estimate how treatment effects vary across individuals, guiding personalized interventions in areas like marketing, operations, and public policy. A standard modeling practice with this method is honest estimation: dividing the data so that the subgroups used to model treatment effect variation are formed separately from the data used to estimate those effects. This is intended to reduce overfitting and is the default in many software packages. But is it always the right choice? In this paper, we show that honest estimation can reduce the accuracy of individual-level treatment effect estimates, especially when there are substantial differences in how individuals respond to treatment, and the data is rich enough to uncover those differences. The core issue is a classic bias-variance trade-off: honesty lowers the risk of overfitting but increases the risk of underfitting, because it limits the data available to detect patterns. Across 7,500 benchmark datasets, we find that the cost of using honesty by default can be as high as requiring 75% more data to match the performance of models trained without it. We argue that honesty is best understood as a form of regularization, and like any regularization choice, its use should be guided by out-of-sample performance, not adopted reflexively.
- Abstract(参考訳): 因果樹林は、治療効果が個人によってどのように異なるかを推定し、マーケティング、運営、公共政策などの分野におけるパーソナライズされた介入を導く。
この手法を用いた標準的なモデリング手法は、データの分割により、治療効果の変動をモデル化するために使用されるサブグループが、それらの効果を推定するために使用されるデータとは別々に形成される、という、正直な推定である。
これはオーバーフィッティングを減らすことを目的としており、多くのソフトウェアパッケージのデフォルトとなっている。
しかし、それは常に正しい選択だろうか?
本稿では, 個別レベルの治療効果推定値の精度を, 特に個人が治療にどう反応するかにかなりの差がある場合において, 正直な推定値の精度が低下することを示し, それらの差を明らかにするのに十分なデータが豊富であることを示す。
正直なところ、過度に適合するリスクは低くなりますが、過度に適合するリスクは高くなります。
7500のベンチマークデータセットで、デフォルトで正直を使うことのコストは、それなしでトレーニングされたモデルのパフォーマンスに合わせるために75%以上のデータを必要とすることと同じくらい高いことが分かりました。
我々は、正直性は正規化の一形態として理解され、正規化の選択と同様に、その使用は非正規化のパフォーマンスによって誘導されるべきであり、反射的には適用されない、と主張している。
関連論文リスト
- When do Random Forests work? [0.0]
ランダム林における分割方向のランダム化の有効性について検討した。
その結果,SNR が低い場合,SNR と森林がバッジを上回り,ばらつきが増大する傾向にあることがわかった。
論文 参考訳(メタデータ) (2025-04-17T11:38:17Z) - Doubly robust identification of treatment effects from multiple environments [22.228179404621482]
本稿では,基礎となる因果グラフの知識や学習を必要とせずに,不偏処理効果推定を行うアルゴリズムであるRAMENを提案する。
RAMENは二重の堅牢な識別を実現し、治療の因果親や結果の因果親が観察されるたびに、治療効果を識別することができる。
論文 参考訳(メタデータ) (2025-03-18T17:33:10Z) - Personalized Denoising Implicit Feedback for Robust Recommender System [60.719158008403376]
ユーザの個人的損失分布には,正常なインタラクションとノイズの多いインタラクションが明確に区別されていることを示す。
本稿では,ユーザのパーソナライズロス分布であるPLDを用いてDenoiseに対する再サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-01T07:13:06Z) - Comparing Targeting Strategies for Maximizing Social Welfare with Limited Resources [20.99198458867724]
政策立案者はランダム化制御試験(RCT)からデータにアクセスされることが滅多にないため、個人が介入の恩恵を受けるであろう正確な見積もりが可能になる。
実践者は、一般的にリスクベースのターゲティングと呼ばれるテクニックを使用します。
現在、どの選択肢が最も効果的な機械学習インフォームドターゲティング戦略につながるかを知らせる実証的な証拠はほとんどない。
論文 参考訳(メタデータ) (2024-11-11T22:36:50Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - Take its Essence, Discard its Dross! Debiasing for Toxic Language Detection via Counterfactual Causal Effect [23.628565620485364]
有害言語検出(TLD)における語彙バイアスを軽減するために, CCDF(Counterfactal Causal Debiasing Framework)を提案する。
CCDFは語彙バイアスの「無駄な影響」を保ち、「誤解を招く影響」を排除している
論文 参考訳(メタデータ) (2024-06-03T04:34:30Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - When mitigating bias is unfair: multiplicity and arbitrariness in algorithmic group fairness [8.367620276482056]
本稿では,5次元によるバイアス緩和を評価するFRAME(FaiRness Arbitrariness and Multiplicity Evaluation)フレームワークを紹介する。
FRAMEをキーデータセット全体にわたる様々なバイアス緩和アプローチに適用することにより、デバイアス手法の挙動に顕著な違いを示すことができる。
これらの知見は、現在の公平性基準の限界と、偏見過程における固有の仲裁性を強調している。
論文 参考訳(メタデータ) (2023-02-14T16:53:52Z) - Cause-Effect Inference in Location-Scale Noise Models: Maximum
Likelihood vs. Independence Testing [19.23479356810746]
因果発見の根本的な問題は因果推論であり、2つの確率変数間の正しい因果方向を学習する。
最近導入されたヘテロセダスティックな位置スケールノイズ汎関数モデル(LSNM)は、表現力と識別可能性の保証を組み合わせたものである。
雑音分布が正しく特定された場合,LSNMモデル選択が最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2023-01-26T20:48:32Z) - Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases [62.54519787811138]
本稿では,突発的手がかりに依存したモデルバイアスを簡易かつ効果的に測定・緩和する手法を提案する。
我々は,解釈可能なネットワークの深部神経的特徴をベースとして,それらのクラス内の画像のランク付けを行う。
以上の結果から,素早い特徴依存によるモデルバイアスは,モデルがどのようにトレーニングされたかよりも,モデルがトレーニングされていることの影響がはるかに大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-05T23:15:43Z) - Learning Antidote Data to Individual Unfairness [23.119278763970037]
個人の公平さは、個々のケースに対する公平な扱いを記述する上で不可欠な概念である。
従来の研究では、個人的公正性は予測不変問題として特徴づけられていた。
我々は,予測ユーティリティの最小あるいはゼロのコストで,個人の不公平さを抑える方法を示す。
論文 参考訳(メタデータ) (2022-11-29T03:32:39Z) - Undersmoothing Causal Estimators with Generative Trees [0.0]
観察データから個別に治療効果を推定することで、標的となる介入の可能性を解き放つことができる。
しかし、観測データからこれらの効果を推測することは困難である。
本稿では,モデルの不特定に対処する新しい生成木に基づくアプローチについて検討する。
論文 参考訳(メタデータ) (2022-03-16T11:59:38Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Recovering from Biased Data: Can Fairness Constraints Improve Accuracy? [11.435833538081557]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、バイアスがあるだけでなく、真のデータ分布に最適な精度を持つ分類器を生成する。
公平性に制約されたERMによるこの問題の是正能力について検討する。
また、トレーニングデータの再重み付け、等化オッド、復号化パリティなど、他のリカバリ手法についても検討する。
論文 参考訳(メタデータ) (2019-12-02T22:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。