論文の概要: An information theoretic limit to data amplification
- arxiv url: http://arxiv.org/abs/2412.18041v1
- Date: Mon, 23 Dec 2024 23:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:04.139076
- Title: An information theoretic limit to data amplification
- Title(参考訳): データ増幅に対する情報理論の限界
- Authors: S. J. Watts, L. Crow,
- Abstract要約: Generative Adversarial Networks (GAN) はモンテカルロシミュレーション入力を用いてトレーニングされ、同じ問題に対してデータを生成するために使用される。
GANのためのNつのトレーニングイベントは、ゲインファクタGが1つ以上の生成イベントをもたらす可能性がある。
データの情報内容が変化しないまま、一つ以上のゲインが可能であることが示される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In recent years generative artificial intelligence has been used to create data to support science analysis. For example, Generative Adversarial Networks (GANs) have been trained using Monte Carlo simulated input and then used to generate data for the same problem. This has the advantage that a GAN creates data in a significantly reduced computing time. N training events for a GAN can result in GN generated events with the gain factor, G, being more than one. This appears to violate the principle that one cannot get information for free. This is not the only way to amplify data so this process will be referred to as data amplification which is studied using information theoretic concepts. It is shown that a gain of greater than one is possible whilst keeping the information content of the data unchanged. This leads to a mathematical bound which only depends on the number of generated and training events. This study determines conditions on both the underlying and reconstructed probability distributions to ensure this bound. In particular, the resolution of variables in amplified data is not improved by the process but the increase in sample size can still improve statistical significance. The bound is confirmed using computer simulation and analysis of GAN generated data from the literature.
- Abstract(参考訳): 近年、生成人工知能は、科学分析をサポートするデータを作成するために使われてきた。
例えば、GAN(Generative Adversarial Networks)はモンテカルロシミュレーション入力を使用してトレーニングされ、同じ問題に対してデータを生成するために使用される。
これは、GANが大幅に少ない計算時間でデータを生成するという利点がある。
GANのためのN個のトレーニングイベントは、GN生成イベントにゲインファクターGが1つ以上の結果をもたらす可能性がある。
これは、情報を無料で入手できないという原則に違反しているようだ。
データを増幅する唯一の方法ではないので、このプロセスは情報理論の概念を用いて研究されるデータ増幅と呼ばれる。
データの情報内容が変化しないまま、一つ以上のゲインが可能であることが示される。
これは、生成およびトレーニングイベントの数にのみ依存する数学的境界につながる。
本研究は, 基礎的および再構成された確率分布の条件を確定し, この境界を確実にする。
特に、増幅データ中の変数の分解能はプロセスによって改善されないが、サンプルサイズの増加は統計学的重要性を向上することができる。
文献から生成したGANデータのコンピュータシミュレーションと解析により,その境界を確認した。
関連論文リスト
- D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - CUTS: Neural Causal Discovery from Irregular Time-Series Data [27.06531262632836]
時系列データからの因果発見は、機械学習における中心的なタスクである。
本稿では,ニューラルグランガー因果探索アルゴリズムであるCUTSについて述べる。
提案手法は,非理想的な観測を行う実アプリケーションに因果発見を適用するための有望なステップとなる。
論文 参考訳(メタデータ) (2023-02-15T04:16:34Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Few-Shot Class-Incremental Learning via Entropy-Regularized Data-Free
Replay [52.251188477192336]
FSCIL (Few-shot class-incremental Learning) は,データ制限のあるクラスを段階的に学習する深層学習システムを実現するために提案されている。
データリプレイの採用は驚くほど好都合である,という実証的な結果を通じて示します。
本研究では,実データにアクセスすることなく,ジェネレータによるデータ合成が可能なデータフリーリプレイを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:30:51Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z) - Sequential IoT Data Augmentation using Generative Adversarial Networks [5.8010446129208155]
工業アプリケーションにおけるシーケンシャルデータは、機械学習モデルのトレーニングと評価に使用できる。
代表的なデータの収集は困難で時間がかかるため、小さな根拠からそれを生成するインセンティブがある。
本稿では,IoT(Internet of Things)データを逐次的に拡張するためにGANを使用する可能性について検討する。
論文 参考訳(メタデータ) (2021-01-13T11:08:07Z) - Approximate kNN Classification for Biomedical Data [1.1852406625172218]
Single-cell RNA-seq (scRNA-seq) は、将来性はあるが重要な計算課題を持つDNAシークエンシング技術である。
scRNA-seqデータにおけるkNN分類のタスクに近似した近接探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。