論文の概要: How Much Data is Enough? The Zeta Law of Discoverability in Biomedical Data, featuring the enigmatic Riemann zeta function
- arxiv url: http://arxiv.org/abs/2604.17581v1
- Date: Sun, 19 Apr 2026 19:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.59248
- Title: How Much Data is Enough? The Zeta Law of Discoverability in Biomedical Data, featuring the enigmatic Riemann zeta function
- Title(参考訳): どれくらいのデータが十分か? 謎のリーマンゼータ関数を特徴とするバイオメディカルデータにおけるゼータ発見法
- Authors: Paul M. Thompson,
- Abstract要約: 本稿では,データ共分散演算子のスペクトル構造,タスク整列信号投影,学習表現に基づくクロスモーダル発見可能性のためのスケーリング法フレームワークを提案する。
このフレームワークは、より単純なモデルが小さなサンプルサイズで最大限に機能するクロスオーバーキャパシティを予測し、十分なデータが追加の自由度を安定化すれば、高あるいはマルチモーダルエンコーダはそれらを上回る性能を発揮する。
- 参考スコア(独自算出の注目度): 1.560394526607184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How much data is enough to make a scientific discovery? As biomedical datasets scale to millions of samples and AI models grow in capacity, progress increasingly depends on predicting when additional data will substantially improve performance. In practice, model development often relies on empirical scaling curves measured across architectures, modalities, and dataset sizes, with limited theoretical guidance on when performance should improve, saturate, or exhibit cross-over behavior. We propose a scaling-law framework for cross-modal discoverability based on spectral structure of data covariance operators, task-aligned signal projections, and learned representations. Many performance metrics, including AUC, can be expressed in terms of cumulative signal-to-noise energy accumulated across identifiable spectral modes of an encoder and cross-modal operator. Under mild assumptions, this accumulation follows a zeta-like scaling law governed by power-law decay of covariance spectra and aligned signal energy, leading naturally to the appearance of the Riemann zeta function. Representation learning methods such as sparse models, low-rank embeddings, and multimodal contrastive objectives improve sample efficiency by concentrating useful signal into earlier stable modes, effectively steepening spectral decay and shifting scaling curves. The framework predicts cross-over regimes in which simpler models perform best at small sample sizes, while higher-capacity or multimodal encoders outperform them once sufficient data stabilizes additional degrees of freedom. Applications include multimodal disease classification, imaging genetics, functional MRI, and topological data analysis. The resulting zeta law provides a principled way to anticipate when scaling data, improving representations, or adding modalities is most likely to accelerate discovery.
- Abstract(参考訳): 科学的な発見に十分な量のデータがあるのか?
バイオメディカルデータセットが数百万のサンプルにスケールし、AIモデルがキャパシティを拡大するにつれて、さらなるデータがパフォーマンスを大幅に向上する時期を予測することによる進歩がますます増えている。
実際には、モデル開発はアーキテクチャ、モダリティ、データセットサイズにわたって測定された経験的スケーリング曲線に依存しており、パフォーマンスがいつ改善されるべきか、飽和するか、それともクロスオーバー動作を示すべきかという理論的なガイダンスは限られている。
本稿では,データ共分散演算子のスペクトル構造,タスク整列信号投影,学習表現に基づくクロスモーダル発見可能性のためのスケーリング法フレームワークを提案する。
AUCを含む多くのパフォーマンス指標は、エンコーダとクロスモーダル演算子の識別可能なスペクトルモード間で蓄積される累積信号-雑音エネルギーで表すことができる。
軽度の仮定では、この累積は共分散スペクトルと整列信号エネルギーのパワー-法則によって支配されるゼータ様のスケーリング則に従っており、自然にリーマンゼータ函数が現れる。
スパースモデル、低ランク埋め込み、マルチモーダルコントラスト目的などの表現学習手法は、有用な信号を以前の安定モードに集中させることでサンプリング効率を向上し、スペクトル減衰を効果的に加速し、スケーリング曲線をシフトさせる。
このフレームワークは、より単純なモデルが小さなサンプルサイズで最大限に機能するクロスオーバーレシエーションを予測し、十分なデータが追加の自由度を安定化すれば、高容量またはマルチモーダルエンコーダがそれらを上回ります。
応用例としては、マルチモーダル病分類、画像遺伝学、機能MRI、トポロジカルデータ分析などがある。
結果として生じるゼータ法則は、データのスケーリング、表現の改善、あるいはモダリティの追加が発見を加速する可能性が最も高い、という原則的な方法を提供する。
関連論文リスト
- Data Curation Through the Lens of Spectral Dynamics: Static Limits, Dynamic Acceleration, and Practical Oracles [16.678827833121602]
大規模ニューラルモデルは、データプルーニング、合成データ生成、クロスモデル蒸留、人間からの強化学習(RLHF)、難易度に基づくサンプリングなど、ますます訓練されている。
我々は,データキュレーションをサンプリング分布の再重み付けとして定式化し,その効果をデータ誘導演算子の固有構造にマッピングする。
論文 参考訳(メタデータ) (2025-12-02T04:36:13Z) - Pretraining Transformer-Based Models on Diffusion-Generated Synthetic Graphs for Alzheimer's Disease Prediction [0.0]
本稿では,合成データ生成とグラフ表現学習と伝達学習を組み合わせたTransformerベースの診断フレームワークを提案する。
実世界のNACCデータセットを用いて、クラス条件付き拡散確率モデル(DDPM)を訓練し、大規模な合成コホートを生成する。
モダリティ固有のグラフトランスフォーマーエンコーダは、まずこの合成データに基づいて、堅牢なクラス識別表現を学習する。
論文 参考訳(メタデータ) (2025-11-24T19:34:53Z) - MEG-GPT: A transformer-based foundation model for magnetoencephalography data [6.336623115095147]
近年のディープラーニングの進歩は、言語や視覚などの他の領域において、大規模に基礎モデルを使用することで、大きな進歩をもたらした。
本稿では,時間アテンションと次の時間ポイント予測を用いたトランスフォーマーベース基盤モデルMEG-GPTを紹介する。
我々は大規模なMEGデータセットから抽出したトークン化された脳領域の時間軸についてMEG-GPTを訓練した。
論文 参考訳(メタデータ) (2025-10-20T20:18:38Z) - Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data [5.591260685112265]
SCOREは、患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークである。
大規模データの計算課題に対処するため、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。
分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:20:17Z) - A Novel Diffusion Model for Pairwise Geoscience Data Generation with Unbalanced Training Dataset [8.453075713579631]
UB-Diff'はマルチモーダルなペア型科学データ生成のための新しい拡散モデルである。
1つの大きな革新は、1対2のエンコーダ・デコーダネットワーク構造であり、コラテント表現からペアのデータを確実に得ることができる。
OpenFWIデータセットの実験結果から,UB-DiffはFr'echet Inception Distance(FID)スコアとペア評価において,既存の技術よりも優れていた。
論文 参考訳(メタデータ) (2025-01-01T19:49:38Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [83.35198885088093]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。