論文の概要: Collinear datasets augmentation using Procrustes validation sets
- arxiv url: http://arxiv.org/abs/2312.04911v1
- Date: Fri, 8 Dec 2023 09:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 15:34:58.721316
- Title: Collinear datasets augmentation using Procrustes validation sets
- Title(参考訳): Procrustes検証セットを用いたCollinearデータセットの拡張
- Authors: Sergey Kucheryavskiy and Sergei Zhilin
- Abstract要約: 数値と混合データセットの増大のための新しい手法を提案する。
クロスバリデーション・リサンプリングと潜在変数モデリングを利用して追加のデータポイントを生成する。
特に、中程度から高いコリニアリティのデータセットでは効率的である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new method for the augmentation of numeric and
mixed datasets. The method generates additional data points by utilizing
cross-validation resampling and latent variable modeling. It is particularly
efficient for datasets with moderate to high degrees of collinearity, as it
directly utilizes this property for generation. The method is simple, fast, and
has very few parameters, which, as shown in the paper, do not require specific
tuning. It has been tested on several real datasets; here, we report detailed
results for two cases, prediction of protein in minced meat based on near
infrared spectra (fully numeric data with high degree of collinearity) and
discrimination of patients referred for coronary angiography (mixed data, with
both numeric and categorical variables, and moderate collinearity). In both
cases, artificial neural networks were employed for developing the regression
and the discrimination models. The results show a clear improvement in the
performance of the models; thus for the prediction of meat protein, fitting the
model to the augmented data resulted in a reduction in the root mean squared
error computed for the independent test set by 1.5 to 3 times.
- Abstract(参考訳): 本稿では,数値と混合データセットの増大のための新しい手法を提案する。
クロスバリデーション再サンプリングと潜在変数モデリングを利用して追加のデータポイントを生成する。
特に高次から高次コリニアリティのデータセットでは、この特性を直接利用して生成するので、効率的である。
この手法は単純で高速であり、パラメータはごくわずかであり、紙に示されているように特定のチューニングを必要としない。
本研究では,近赤外スペクトル(コリニア度の高い数値データ)と冠動脈造影法(数値変数とカテゴリ変数を併用した混合データ,中等度コリニア性)による肉肉中のタンパク質の予測と,冠動脈造影法で紹介された患者の識別について,その2例について詳細な検討を行った。
どちらの場合も、回帰モデルと識別モデルの開発に人工ニューラルネットワークが用いられた。
その結果, モデルの性能は明らかに向上し, 肉タンパク質の予測では, 改良したデータにモデルを適合させると, 1.5~3倍の独立試験で計算された根平均二乗誤差が減少することがわかった。
関連論文リスト
- Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Data Augmentation Scheme for Raman Spectra with Highly Correlated
Annotations [0.23090185577016453]
統計的に独立なラベルを持つデータセットから追加のデータポイントを生成するために、スペクトルの付加的な性質を利用する。
これらのデータポイント上でCNNをトレーニングすることで、アノテーションがモデルトレーニングに使用されたデータセットと同じ相関関係を持たないデータセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-02-01T18:46:28Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Data Augmentation for Seizure Prediction with Generative Diffusion Model [26.967247641926814]
重症度予測は患者の生活改善に非常に重要である。
初期データと中間データの間の深刻な不均衡問題は、依然として大きな課題となっている。
データ拡張は、この問題を解決するための直感的な方法です。
DiffEEGと呼ばれる拡散モデルを用いた新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T05:44:53Z) - Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文 参考訳(メタデータ) (2022-05-03T13:38:58Z) - A Variational Autoencoder for Heterogeneous Temporal and Longitudinal
Data [0.3749861135832073]
近年,経時的および経時的データを処理可能なVAEの拡張は,医療,行動モデリング,予測保守に応用されている。
本研究では,既存の時間的および縦的VAEをヘテロジニアスデータに拡張するヘテロジニアス縦型VAE(HL-VAE)を提案する。
HL-VAEは高次元データセットに対する効率的な推論を提供し、連続、カウント、カテゴリー、順序データのための可能性モデルを含む。
論文 参考訳(メタデータ) (2022-04-20T10:18:39Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Increased peak detection accuracy in over-dispersed ChIP-seq data with
supervised segmentation models [2.2559617939136505]
制約のない複数変更点検出モデルにおいて、代替ノイズ仮定と適切な設定により、カウントデータによる過分散を低減できることを示す。
結果: 代替ノイズ仮定と適切なセットアップを備えた制約のないマルチチェンジポイント検出モデルにより、カウントデータによって表示される過分散が減少することを示した。
論文 参考訳(メタデータ) (2020-12-12T16:03:27Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。