論文の概要: AutoSciDACT: Automated Scientific Discovery through Contrastive Embedding and Hypothesis Testing
- arxiv url: http://arxiv.org/abs/2510.21935v1
- Date: Fri, 24 Oct 2025 18:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.706809
- Title: AutoSciDACT: Automated Scientific Discovery through Contrastive Embedding and Hypothesis Testing
- Title(参考訳): AutoSciDACT: 対照的な埋め込みと仮説テストによる科学的発見の自動化
- Authors: Samuel Bright-Thonney, Christina Reissel, Gaia Grosso, Nathaniel Woodward, Katya Govorkova, Andrzej Novak, Sang Eon Park, Eric Moreno, Philip Harris,
- Abstract要約: 本稿では,科学データの新規性を検出する汎用パイプラインであるAutoSciDACT(Automated Scientific Discovery with Anomalous Contrastive Testing)を紹介する。
我々は、天文学、物理、生物学的、画像、合成データセットの領域で実験を行い、異常データの小さな注入に対して強い感度を示す。
- 参考スコア(独自算出の注目度): 0.3176157258742961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novelty detection in large scientific datasets faces two key challenges: the noisy and high-dimensional nature of experimental data, and the necessity of making statistically robust statements about any observed outliers. While there is a wealth of literature on anomaly detection via dimensionality reduction, most methods do not produce outputs compatible with quantifiable claims of scientific discovery. In this work we directly address these challenges, presenting the first step towards a unified pipeline for novelty detection adapted for the rigorous statistical demands of science. We introduce AutoSciDACT (Automated Scientific Discovery with Anomalous Contrastive Testing), a general-purpose pipeline for detecting novelty in scientific data. AutoSciDACT begins by creating expressive low-dimensional data representations using a contrastive pre-training, leveraging the abundance of high-quality simulated data in many scientific domains alongside expertise that can guide principled data augmentation strategies. These compact embeddings then enable an extremely sensitive machine learning-based two-sample test using the New Physics Learning Machine (NPLM) framework, which identifies and statistically quantifies deviations in observed data relative to a reference distribution (null hypothesis). We perform experiments across a range of astronomical, physical, biological, image, and synthetic datasets, demonstrating strong sensitivity to small injections of anomalous data across all domains.
- Abstract(参考訳): 大規模な科学データセットにおける新規性検出は、実験データのノイズと高次元の性質、および観測された外れ値に関する統計的に堅牢なステートメントを作成する必要性という2つの大きな課題に直面している。
次元減少による異常検出に関する文献は豊富にあるが、ほとんどの手法は科学的発見の定量的な主張と互換性のある出力を生成していない。
本研究では,科学の厳密な統計的要求に適応した新規性検出のための統一パイプラインに向けた第一歩として,これらの課題に対処する。
本稿では,科学データの新規性を検出する汎用パイプラインであるAutoSciDACT(Automated Scientific Discovery with Anomalous Contrastive Testing)を紹介する。
AutoSciDACTは、対照的な事前トレーニングを使用して表現力のある低次元データ表現を作成し、多くの科学領域における高品質なシミュレーションデータと、原則化されたデータ拡張戦略を導くことのできる専門知識を活用することから始まる。
これらのコンパクトな埋め込みは、参照分布(null仮説)に対する観測データの偏差を特定し統計的に定量化する新しい物理学習機械(NPLM)フレームワークを使用して、非常に敏感な機械学習ベースの2サンプルテストを可能にする。
我々は、天文学、物理、生物学的、画像、合成データセットにまたがって実験を行い、全ての領域にわたる小さな異常データの注入に対して強い感度を示す。
関連論文リスト
- A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI [0.6268282038459305]
疫学データを合成するための効率的かつ便利な方法として, 対向ランダム林(ARF)を提案する。
6つの疫学論文から統計学的解析を再現し,原本と合成結果を比較した。
複数の合成データ複製の結果は、元の結果と一貫して一致している。
論文 参考訳(メタデータ) (2025-08-19T22:51:40Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Operationalizing Serendipity: Multi-Agent AI Workflows for Enhanced Materials Characterization with Theory-in-the-Loop [0.0]
SciLinkは、材料研究におけるセレンディピティーを運用するために設計された、オープンソースのマルチエージェント人工知能フレームワークである。
実験観察、新規性評価、理論シミュレーションの直接的な自動リンクを生成する。
本稿では,原子分解能およびハイパースペクトルデータへの応用,リアルタイムな人間専門家指導の統合能力,研究ループを閉じる能力について述べる。
論文 参考訳(メタデータ) (2025-08-07T04:59:17Z) - We Need Improved Data Curation and Attribution in AI for Scientific Discovery [3.831097744380551]
本研究では, 実実験データとは対照的に, 合成データの役割について検討する。
オープンアクセスプラットフォームで利用可能な実験データセットの約4分の3は、比較的低い採用率である。
本稿では,実際の実験データの透かしに焦点をあてることにより,合成データ検出の自動化に向けた継続的な取り組みを補うことを提案する。
論文 参考訳(メタデータ) (2025-04-03T11:07:52Z) - Amortized Conditional Independence Testing [6.954510776782872]
ACIDは、条件付き独立性のテストを学ぶトランスフォーマーベースのニューラルネットワークアーキテクチャである。
複数のメトリクスの下で、既存のベースラインに対する最先端のパフォーマンスを一貫して達成します。
標本のサイズ、次元、および非常に低い推論時間を持つ非線形性に頑健に一般化することができる。
論文 参考訳(メタデータ) (2025-02-28T10:29:56Z) - Understanding complex crowd dynamics with generative neural simulators [43.02251339321427]
我々は、NeCS(Neural Crowd Simulator)を用いて、大規模データをトレーニングし、クラウドダイナミクスの重要な統計的特徴に対する検証を行う。
我々は,特定のシナリオを訓練することなく,効果的な群集動態実験を行うことができることを示す。
また,N体相互作用の視覚誘導とトポロジカルな性質も明らかにした。
論文 参考訳(メタデータ) (2024-12-02T13:42:36Z) - Discovering physical laws with parallel symbolic enumeration [67.36739393470869]
並列記号列挙法(PSE)を導入し,限られたデータから汎用数学的表現を効率的に抽出する。
実験の結果,PSEは最先端のベースラインアルゴリズムと比較して精度が高く,計算速度も速いことがわかった。
PSEは、記号的、解釈可能なモデルの正確で効率的なデータ駆動による発見の進歩を表している。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - GFlowNets for AI-Driven Scientific Discovery [74.27219800878304]
我々はGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを提案する。
GFlowNetsは、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用できる。
我々は、GFlowNetsがAIによる科学的発見の貴重なツールになり得ると論じている。
論文 参考訳(メタデータ) (2023-02-01T17:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。