論文の概要: Scalable Statistical Inference of Photometric Redshift via Data
Subsampling
- arxiv url: http://arxiv.org/abs/2103.16041v2
- Date: Thu, 1 Apr 2021 14:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:15:36.562692
- Title: Scalable Statistical Inference of Photometric Redshift via Data
Subsampling
- Title(参考訳): データサブサンプリングによる測光赤方偏移のスケーラブルな統計的推定
- Authors: Arindam Fadikar, Stefan M. Wild, Jonas Chaves-Montero
- Abstract要約: ビッグデータの処理は、従来の統計モデルでは大きなボトルネックとなっている。
統計モデルのアンサンブルからの不確実性を結合したデータ駆動統計モデリングフレームワークを開発する。
この手法を宇宙論における光度赤方位推定問題で実証する。
- 参考スコア(独自算出の注目度): 0.3222802562733786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handling big data has largely been a major bottleneck in traditional
statistical models. Consequently, when accurate point prediction is the primary
target, machine learning models are often preferred over their statistical
counterparts for bigger problems. But full probabilistic statistical models
often outperform other models in quantifying uncertainties associated with
model predictions. We develop a data-driven statistical modeling framework that
combines the uncertainties from an ensemble of statistical models learned on
smaller subsets of data carefully chosen to account for imbalances in the input
space. We demonstrate this method on a photometric redshift estimation problem
in cosmology, which seeks to infer a distribution of the redshift -- the
stretching effect in observing the light of far-away galaxies -- given
multivariate color information observed for an object in the sky. Our proposed
method performs balanced partitioning, graph-based data subsampling across the
partitions, and training of an ensemble of Gaussian process models.
- Abstract(参考訳): ビッグデータを扱うことは、従来の統計モデルにおいて大きなボトルネックとなっている。
したがって、正確な点予測が主なターゲットである場合、機械学習モデルはより大きな問題に対して統計モデルよりも好まれる。
しかし、完全な確率的統計モデルは、モデル予測に関連する不確かさを定量化するために、しばしば他のモデルを上回る。
我々は,入力空間における不均衡を考慮に入れたデータの部分集合から学習した統計モデルのアンサンブルからの不確実性を組み合わせた,データ駆動型統計モデリングフレームワークを開発する。
本研究では、宇宙論において、遠方銀河の光を観測する際の赤方偏移の分布を推定する光度赤方偏移推定問題において、空の天体で観測される多変量色情報について示す。
提案手法は,バランスの取れたパーティショニング,グラフベースのデータサブサンプリング,およびガウス過程モデルのアンサンブルのトレーニングを行う。
関連論文リスト
- Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。
本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文 参考訳(メタデータ) (2024-06-23T20:34:18Z) - Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications [0.0]
本研究では,合成データを用いたモデル適応と一般化について検討する。
我々は、データ類似性を評価するために、Kullback-Leiblerの発散、Jensen-Shannon距離、Mahalanobis距離などの量的尺度を用いる。
本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,あるいは高誤差の「補間体制」が分布変化とモデル不確実性を評価するための補完的手法を提供することを示唆している。
論文 参考訳(メタデータ) (2024-05-03T10:05:31Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - On the Influence of Enforcing Model Identifiability on Learning dynamics
of Gaussian Mixture Models [14.759688428864159]
特異モデルからサブモデルを抽出する手法を提案する。
本手法はトレーニング中のモデルの識別性を強制する。
この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2022-06-17T07:50:22Z) - Photometric Redshift Estimation with Convolutional Neural Networks and
Galaxy Images: A Case Study of Resolving Biases in Data-Driven Methods [0.0]
クラス依存残差とモード崩壊の2つの主要なバイアス形態を、測光赤方偏移を推定するケーススタディとして検討する。
CNNモデルに基づく2つのバイアスを解決するための一連のステップを提案する。
実験により,本手法はベンチマーク法よりもバイアス制御能力が優れていることが示された。
論文 参考訳(メタデータ) (2022-02-21T02:59:33Z) - Predicting traffic signals on transportation networks using
spatio-temporal correlations on graphs [56.48498624951417]
本稿では,複数の熱拡散カーネルをデータ駆動予測モデルにマージして交通信号を予測する交通伝搬モデルを提案する。
予測誤差を最小限に抑えるためにベイズ推定を用いてモデルパラメータを最適化し,2つの手法の混合率を決定する。
提案モデルでは,計算労力の少ない最先端のディープニューラルネットワークに匹敵する予測精度を示す。
論文 参考訳(メタデータ) (2021-04-27T18:17:42Z) - Bayesian Sparse Factor Analysis with Kernelized Observations [67.60224656603823]
多視点問題は潜在変数モデルに直面することができる。
高次元問題と非線形問題は伝統的にカーネルメソッドによって扱われる。
両アプローチを単一モデルにマージすることを提案する。
論文 参考訳(メタデータ) (2020-06-01T14:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。