論文の概要: Do Real-World Datasets Contain Natural Experiments? An Empirical Study Using Causal Feature Selection
- arxiv url: http://arxiv.org/abs/2606.03251v1
- Date: Tue, 02 Jun 2026 07:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.829218
- Title: Do Real-World Datasets Contain Natural Experiments? An Empirical Study Using Causal Feature Selection
- Title(参考訳): 実世界のデータセットは自然実験を含むか?-因果的特徴選択を用いた実証的研究
- Authors: Gautam Gare, John Galeotti, Michael Mozer, Deva Ramanan, Nan Rosemary Ke,
- Abstract要約: 自然界では、一部の個人やグループに影響を与えるが、他の個人には影響しない事象は自然実験として知られている。
因果探索を用いて基礎となる因果グラフを復元し,因果リンクに基づく特徴選択を行う。
この結果から,実世界のデータセットには自然実験が組み込まれており,これらの自然実験を利用してモデル性能を向上させることが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 39.66056784195928
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In nature, events that affect some individuals or groups but not others constitute an implicit intervention and are known as natural experiments. For example, the COVID-19 pandemic was an intervention by the coronavirus on the sub-population infected with COVID. We ask, do natural experiments occur in existing real-world datasets? If yes, how should we treat them? To detect natural experiments in data, we use causal discovery to recover the underlying causal graph and perform feature selection based on causal links. If downstream performance improves by treating the data as interventional rather than observational, we argue that this suggests the dataset contains natural experiments. We first validate this hypothesis by simulating datasets with and without natural experiments using synthetic graphs. We then perform a systematic empirical evaluation on a large suite of real-world datasets. Our results indicate that real-world datasets do contain natural experiments and we can take advantage of those natural experiments to improve model performance using causal inference. Our work represents the initial foray into this area, offering a preliminary exploration within a limited scope.
- Abstract(参考訳): 自然界では、一部の個人やグループに影響を与えるが、他の個人には影響しない出来事は暗黙の介入を形成し、自然実験として知られている。
例えば、新型コロナウイルスのパンデミックは、新型コロナウイルスに感染したサブ集団に対する新型コロナウイルスの介入だった。
我々は、既存の実世界のデータセットで自然実験が行われますか?
もしそうなら、それらをどう扱うべきか?
データ中の自然実験を検出するために、因果探索を用いて基礎となる因果グラフを復元し、因果リンクに基づいた特徴選択を行う。
下流の性能が観察ではなく介入として扱うことで向上すれば、このデータセットには自然な実験が含まれていることが示唆される。
まず、この仮説を、合成グラフを用いた自然実験および無自然実験を用いて、データセットをシミュレートして検証する。
次に、実世界のデータセットの集合に対して、体系的な経験的評価を行う。
その結果,実世界のデータセットには自然実験が組み込まれており,それらの自然実験を利用して因果推論を用いてモデル性能を向上させることができることがわかった。
私たちの研究は、この領域への最初の進出を表しており、限られた範囲内で予備的な探索を提供しています。
関連論文リスト
- Exploratory Causal Inference in SAEnce [25.91637307089553]
データから直接治療の未知の効果を発見することを提案する。
このために、未構造化データを事前訓練された基礎モデルを介して有意義な表現に変換し、スパースオートエンコーダを介して解釈する。
神経レベルで重要な因果効果を発見することは、複数のテストの問題と影響の絡み合いのために簡単ではない。
論文 参考訳(メタデータ) (2025-10-15T20:30:54Z) - MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [136.27567671480156]
先行テストからのフィードバックに基づいて仮説を優先順位付けする実験誘導ランキングを導入する。
我々は、シーケンシャルな意思決定問題として実験誘導型ランキングを定めている。
我々のアプローチは、実験前のベースラインと強い改善を著しく上回る。
論文 参考訳(メタデータ) (2025-05-23T13:24:50Z) - The Hardness of Validating Observational Studies with Experimental Data [2.9593087583214173]
実験データを用いて,観測データから因果効果を推定する手法を提案する。
この定理は, 観測実験において, 補正関数の滑らかさを仮定することなく, 偏差を検出する実験データを用いることができるが, 除去には使用できないことを証明している。
論文 参考訳(メタデータ) (2025-03-19T00:06:23Z) - Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - Identification of Single-Treatment Effects in Factorial Experiments [0.0]
実験において複数の介入がランダム化されている場合、実験環境外において単一の介入が与える影響は、不在の英雄的仮定とは見なされないことを示す。
観測研究と要因実験は、ゼロおよび複数介入による潜在的アウトカム分布に関する情報を提供する。
この種の設計に頼っている研究者は、関数形式の線形性を正当化するか、あるいはDirected Acyclic Graphsで変数が実世界でどのように関連しているかを特定する必要がある。
論文 参考訳(メタデータ) (2024-05-16T04:01:53Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - What can the millions of random treatments in nonexperimental data
reveal about causes? [0.0]
この記事ではこのようなモデルとベイズ的アプローチを紹介し、非経験的データで典型的に使用可能な 1(n2)$ のペアワイズ観測を組み合わせる。
提案手法は, 一般のnswサンプル, 任意のサブポピュレーションおよび大容量スーパーサンプルにおいて, 因果効果を回復することを示す。
論文 参考訳(メタデータ) (2021-05-03T20:13:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。