論文の概要: Stable but Wrong: When More Data Degrades Scientific Conclusions
- arxiv url: http://arxiv.org/abs/2602.05668v1
- Date: Thu, 05 Feb 2026 13:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.959028
- Title: Stable but Wrong: When More Data Degrades Scientific Conclusions
- Title(参考訳): 安定したが間違っている: もっと多くのデータが科学的結論を下すとき
- Authors: Zhipeng Zhang, Kai Li,
- Abstract要約: 現代の科学は、ますます成長している観測データセットと自動推論パイプラインに依存している。
我々は、標準推論手順が円滑に収束し、適切に校正され、従来の診断チェックに合格する構造体制を同定する。
この失敗は、観測の信頼性が本質的に推論プロセス自体に観察不能な方法で低下した時に生じる。
- 参考スコア(独自算出の注目度): 26.934158434915133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern science increasingly relies on ever-growing observational datasets and automated inference pipelines, under the implicit belief that accumulating more data makes scientific conclusions more reliable. Here we show that this belief can fail in a fundamental and irreversible way. We identify a structural regime in which standard inference procedures converge smoothly, remain well calibrated, and pass conventional diagnostic checks, yet systematically converge to incorrect conclusions. This failure arises when the reliability of observations degrades in a manner that is intrinsically unobservable to the inference process itself. Using minimal synthetic experiments, we demonstrate that in this regime additional data do not correct error but instead amplify it, while residual-based and goodness-of-fit diagnostics remain misleadingly normal. These results reveal an intrinsic limit of data-driven science: stability, convergence, and confidence are not sufficient indicators of epistemic validity. We argue that inference cannot be treated as an unconditional consequence of data availability, but must instead be governed by explicit constraints on the integrity of the observational process.
- Abstract(参考訳): 現代の科学は、より多くのデータを蓄積することで科学的結論がより信頼できるという暗黙の信念の下で、継続的に成長する観測データセットと自動推論パイプラインに依存している。
ここでは、この信念が根本的で不可逆的な方法で失敗することを示します。
我々は、標準推論手順が円滑に収束し、適切に校正され、従来の診断チェックに合格するが、体系的に誤った結論に収束する構造体制を同定する。
この失敗は、観測の信頼性が本質的に推論プロセス自体に観察不能な方法で低下した時に生じる。
最小限の合成実験を用いて、この体制では、付加的なデータが誤りを訂正せず、それを増幅する一方で、残差ベースと良質な診断は誤解を招くほど正常であることを示した。
これらの結果は、データ駆動科学の本質的な限界を明らかにしている:安定性、収束性、信頼は、疫学的妥当性の十分な指標ではない。
我々は、推論はデータ可用性の無条件の結果として扱うことはできないが、観察過程の完全性に関する明示的な制約によって管理されなければならないと論じる。
関連論文リスト
- "I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time [1.570719611178015]
大規模言語モデル(LLM)の推論失敗は通常、世代末にのみ測定されるが、プロセスレベルのブレークダウンとして多くの障害が現れる。
連続的なステップ分布シフト(JSD)と不確実性(エントロピー)を組み合わせた単純な不安定信号を定義する。
GSM8KとHotpotQA全体で、不安定性はAUCで間違った解を予測し、単調バケットレベルの精度を低下させる。
論文 参考訳(メタデータ) (2026-02-02T22:11:25Z) - Cross-Validated Causal Inference: a Modern Method to Combine Experimental and Observational Data [48.72384067821617]
我々は、因果推論において実験データと観測データを統合するための新しい手法を開発した。
実験と観測の損失の重み付けを最小化することにより、因果パラメータを含む完全なモデルを得る。
実データおよび合成データを用いた実験により,本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2025-11-01T22:24:16Z) - A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - The Hardness of Validating Observational Studies with Experimental Data [2.9593087583214173]
実験データを用いて,観測データから因果効果を推定する手法を提案する。
この定理は, 観測実験において, 補正関数の滑らかさを仮定することなく, 偏差を検出する実験データを用いることができるが, 除去には使用できないことを証明している。
論文 参考訳(メタデータ) (2025-03-19T00:06:23Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Causal Discovery via Conditional Independence Testing with Proxy Variables [35.3493980628004]
潜伏した共同設立者のような未観測変数の存在は、条件付き独立テストにバイアスをもたらす可能性がある。
本研究では,連続変数に対する因果関係の存在を効果的に検証できる仮説テスト手法を提案する。
論文 参考訳(メタデータ) (2023-05-09T09:08:39Z) - Causal Discovery from Conditionally Stationary Time Series [14.297325665581353]
我々は,広範囲の非定常時系列を扱う因果探索手法を開発した。
State-Dependent Causal Inference (SDCI)と名付けられた私たちのアプローチは、根底にある因果関係を回復することができる。
非線形粒子相互作用データと遺伝子制御ネットワークに関する実証実験は、SDCIの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-12T18:12:57Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。