論文の概要: Position: AI for Science Should Treat Measurement-to-Dataset Pipelines as Inference Components
- arxiv url: http://arxiv.org/abs/2605.24558v1
- Date: Sat, 23 May 2026 12:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.244345
- Title: Position: AI for Science Should Treat Measurement-to-Dataset Pipelines as Inference Components
- Title(参考訳): 位置:AI for Scienceは、計測からデータへのパイプラインを推論コンポーネントとして扱うべきだ
- Authors: Ling Zhan, Xiaoyao Yu, Tao Jia,
- Abstract要約: 間接観察に依存する領域において、学習者は多段階計測、再構成、前処理パイプラインによって生成された微分表現を観察する。
「この凍結レンズから生じる3つの故障モードを特定します。」
私たちはAI4Scienceコミュニティに、ドメイン固有のComputable Observation Frameworkを通じて、パイプラインに計算可能な推論オブジェクトを作成するよう呼びかけています。
- 参考スコア(独自算出の注目度): 2.439525434311725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI for Science (AI4Science) workflows often treat the released dataset as a fixed interface to the underlying system. However, in domains relying on \emph{indirect observation}, the learner observes a derivative representation produced by multi-stage measurement, reconstruction, and preprocessing pipelines. \textbf{We argue that these measurement-to-dataset pipelines are inference components: treating their outputs as ``given data'' freezes an observation model and obscures uncertainty over feasible pipeline choices.} We identify three failure modes arising from this ``frozen lens'': \textbf{(C1) hidden hypothesis space}, where the released dataset does not specify the pipeline configuration or its validity conditions; \textbf{(C2) uncertified transportability}, where a pipeline may be documented but its regime of validity is untested, so failures under distribution shift cannot be adjudicated; \textbf{(C3) ungoverned multiplicity}, where many defensible pipelines exist and dispersion is real but not propagated into uncertainty-aware evidence. We stress-test these claims with a large-scale neuroscience empirical audit, finding a survival rate of $\approx 0.0004\%$ under a cross-dataset stability criterion. We call on the AI4Science community to make pipelines \emph{computable} inference objects via domain-specific Computable Observation Frameworks. This shift enables quantifying pipeline adequacy and stability, converting implicit implementation choices into auditable, reproducible, and cumulative scientific evidence.
- Abstract(参考訳): AI for Science(AI4Science)ワークフローは、リリースされたデータセットを基盤システムの固定インターフェースとして扱うことが多い。
しかし,emph{indirect observed} に依存する領域では,学習者は多段階計測,再構成,前処理のパイプラインによって生成された微分表現を観察する。
出力を‘given data’として扱うことで、観測モデルが凍結され、実行可能なパイプライン選択に対する不確実性が曖昧になります。
この「凍結レンズ」から生じる3つの障害モードを同定する: \textbf{(C1) 隠れ仮説空間} リリースデータセットがパイプラインの構成やその妥当性を規定していない場合; \textbf{(C2) 未確認輸送可能性} パイプラインの文書化が可能であるが、その妥当性の体系は検証されていないため、分散シフト時の障害を判断できない; \textbf{(C3) 過渡多重性} 多数の防御可能なパイプラインが存在し、分散は実在するが、不確実性のある証拠には伝播しない。
我々は、これらの主張を大規模な神経科学実験監査でストレステストし、データセット間の安定性基準の下で生存率$$0.0004\%を求める。
私たちはAI4Scienceコミュニティに、ドメイン固有のComputable Observation Frameworkを通じてパイプライン \emph{computable} 推論オブジェクトを作成するよう呼びかけています。
このシフトはパイプラインの精度と安定性の定量化を可能にし、暗黙の実施選択を監査可能、再現可能、累積的な科学的証拠に変換する。
関連論文リスト
- Non-Parametric Rehearsal Learning via Conditional Mean Embeddings [88.89267783967263]
本研究では,不必要な未来(AUF)問題をテキスト化するための非パラメトリックリハーサル学習手法を提案する。
具体的には、カーネル機械を用いてAUFの目的を、動作誘起分布変化から所望性モデリングを遠ざける統一表現に再構成する。
論文 参考訳(メタデータ) (2026-05-09T15:30:52Z) - Data-Driven Reachability Analysis via Diffusion Models with PAC Guarantees [3.651951296125688]
本稿では,非線形力学系の到達可能性解析のためのデータ駆動型フレームワークを提案する。
微分拡散確率モデルは、軌道データのみから力学系の時間進化状態分布を学習する。
論文 参考訳(メタデータ) (2026-03-31T22:14:36Z) - Robust Sequential Tracking via Bounded Information Geometry and Non-Parametric Field Actions [0.0]
LiDARによるターゲット追跡、高周波暗号秩序フロー、量子状態トモグラフィーの3つの領域にわたる実証的なベンチマークでは、この情報ジオメトリが異常値を解析的に減らすことを実証している。
論文 参考訳(メタデータ) (2026-03-13T21:40:44Z) - Causal Identification from Counterfactual Data: Completeness and Bounding Results [54.147490305295456]
本研究では,任意のレイヤ3分布の集合から対実的なクエリを識別するアルゴリズムを開発した。
我々は、物理的に実現可能な分布から反事実を特定できる理論的限界を確立する。
我々は、そのような量の新たな解析的境界を、実現可能な対実データを用いて導出する。
論文 参考訳(メタデータ) (2026-02-26T22:48:12Z) - The Inevitability of Side-Channel Leakage in Encrypted Traffic [18.365496056967917]
効率優先のシステムでは、少なくとも1つのアプリケーションペアが識別可能である場合、リークは避けられないことを示す。
これにより、暗号化されたトラフィックサイドチャネルのための厳密な情報理論の基礎が確立される。
論文 参考訳(メタデータ) (2026-02-15T08:55:19Z) - Stable but Wrong: When More Data Degrades Scientific Conclusions [26.934158434915133]
現代の科学は、ますます成長している観測データセットと自動推論パイプラインに依存している。
我々は、標準推論手順が円滑に収束し、適切に校正され、従来の診断チェックに合格する構造体制を同定する。
この失敗は、観測の信頼性が本質的に推論プロセス自体に観察不能な方法で低下した時に生じる。
論文 参考訳(メタデータ) (2026-02-05T13:51:47Z) - A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - Error-quantified Conformal Inference for Time Series [55.11926160774831]
時系列予測の不確かさの定量化は、時系列データの時間的依存と分布シフトのために困難である。
量子化損失関数をスムースにすることで,iError-quantified Conformal Inference (ECI)を提案する。
ECIは有効な誤発見制御と、他のベースラインよりも厳密な予測セットを出力することができる。
論文 参考訳(メタデータ) (2025-02-02T15:02:36Z) - Data-Driven Reachability Analysis of Stochastic Dynamical Systems with
Conformal Inference [1.446438366123305]
共形推論を用いた離散時間力学系のデータ駆動型到達可能性解析について考察する。
複雑な閉ループ力学を持つ学習可能な制御系に着目する。
論文 参考訳(メタデータ) (2023-09-17T07:23:01Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。