論文の概要: SEGAN: semi-supervised learning approach for missing data imputation
- arxiv url: http://arxiv.org/abs/2405.13089v3
- Date: Wed, 12 Jun 2024 08:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 22:05:02.898881
- Title: SEGAN: semi-supervised learning approach for missing data imputation
- Title(参考訳): SEGAN: 欠落データ計算のための半教師付き学習手法
- Authors: Xiaohua Pan, Weifeng Wu, Peiran Liu, Zhen Li, Peng Lu, Peijian Cao, Jianfeng Zhang, Xianfei Qiu, YangYang Wu,
- Abstract要約: 本稿では,セミ教師付き学習に基づくデータ補完モデルSEGANを提案する。
SEGANモデルでは、ジェネレータは、欠落したデータ値を予測する際に、既知のデータとそのラベル情報をよりフルに利用することができる。
本稿では,SEGANモデルがナッシュ平衡に達すると,実データ分布特性を学習できることを理論的に証明する。
- 参考スコア(独自算出の注目度): 12.552699799009037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many practical real-world applications, data missing is a very common phenomenon, making the development of data-driven artificial intelligence theory and technology increasingly difficult. Data completion is an important method for missing data preprocessing. Most existing miss-ing data completion models directly use the known information in the missing data set but ignore the impact of the data label information contained in the data set on the missing data completion model. To this end, this paper proposes a missing data completion model SEGAN based on semi-supervised learning, which mainly includes three important modules: generator, discriminator and classifier. In the SEGAN model, the classifier enables the generator to make more full use of known data and its label information when predicting missing data values. In addition, the SE-GAN model introduces a missing hint matrix to allow the discriminator to more effectively distinguish between known data and data filled by the generator. This paper theoretically proves that the SEGAN model that introduces a classifier and a missing hint matrix can learn the real known data distribution characteristics when reaching Nash equilibrium. Finally, a large number of experiments were conducted in this article, and the experimental results show that com-pared with the current state-of-the-art multivariate data completion method, the performance of the SEGAN model is improved by more than 3%.
- Abstract(参考訳): 多くの実世界の応用において、データ不足は非常に一般的な現象であり、データ駆動人工知能理論や技術の開発がますます困難になっている。
データ補完は、データ前処理の欠如にとって重要な方法である。
ほとんどの既存のミススルーデータ補完モデルは、欠落したデータセットの既知の情報を直接使用するが、欠落したデータ補完モデルにデータセットに含まれるデータラベル情報の影響を無視する。
本稿では,主にジェネレータ,識別器,分類器の3つの重要なモジュールを含む半教師付き学習に基づくデータ補完モデルSEGANを提案する。
SEGANモデルでは、ジェネレータは、欠落したデータ値を予測する際に、既知のデータとそのラベル情報をよりフルに利用することができる。
さらに、SE-GANモデルでは、識別器が既知のデータとジェネレータによって満たされたデータをより効果的に識別できるように、ヒント行列が欠落している。
本稿では,分類器とヒント行列の欠如を導入したSEGANモデルが,ナッシュ平衡に達すると実データ分布特性を学習できることを理論的に証明する。
最後に, 本論文では, 多数の実験を行い, 実験結果から, 現状の多変量データ補完法と組み合わせて, SEGANモデルの性能を3%以上向上することを示した。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Data-Free Adversarial Knowledge Distillation for Graph Neural Networks [62.71646916191515]
グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための第1のエンドツーエンドフレームワークを提案する。
具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。
我々のDFAD-GNNは、グラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-05-08T08:19:40Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - VAEs in the Presence of Missing Data [6.397263087026567]
我々は、欠落したデータを生成する汚職過程の新しい潜伏変数モデルを開発し、対応する抽出可能なエビデンスローバウンド(ELBO)を導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元入力にスケールし、データ要素が欠落しているか否かの指標変数にVAEエンコーダとデコーダの両方にアクセスできる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。
論文 参考訳(メタデータ) (2020-06-09T14:40:00Z) - Multiple Imputation with Denoising Autoencoder using Metamorphic Truth
and Imputation Feedback [0.0]
データの内部表現を学習するために,Denoising Autoencoder を用いた多重命令モデルを提案する。
我々は、属性の統計的整合性を維持するために、変成真理と帰納フィードバックの新たなメカニズムを用いる。
提案手法は,多くの標準的なテストケースにおいて,様々な欠落メカニズムや欠落したデータのパターンに対するインパルスの効果を検証し,他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-19T18:26:59Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。