論文の概要: Dealing with missing data using attention and latent space
regularization
- arxiv url: http://arxiv.org/abs/2211.07059v1
- Date: Mon, 14 Nov 2022 01:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 19:09:16.637908
- Title: Dealing with missing data using attention and latent space
regularization
- Title(参考訳): 注意と潜時空間正規化を用いた欠測データ処理
- Authors: Jahan C. Penny-Dimri, Christoph Bergmeir, Julian Smith
- Abstract要約: 本研究では,観測変数のみを用いた学習と推論のための理論的枠組みを開発する。
我々は、欠落データから生じる潜在的なバイアスに対して規則化する潜在空間表現を持つモデルを構築した。
提案手法は,提案手法の弱点を克服し,現在の最先端技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.610470075814367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most practical data science problems encounter missing data. A wide variety
of solutions exist, each with strengths and weaknesses that depend upon the
missingness-generating process. Here we develop a theoretical framework for
training and inference using only observed variables enabling modeling of
incomplete datasets without imputation. Using an information and
measure-theoretic argument we construct models with latent space
representations that regularize against the potential bias introduced by
missing data. The theoretical properties of this approach are demonstrated
empirically using a synthetic dataset. The performance of this approach is
tested on 11 benchmarking datasets with missingness and 18 datasets corrupted
across three missingness patterns with comparison against a state-of-the-art
model and industry-standard imputation. We show that our proposed method
overcomes the weaknesses of imputation methods and outperforms the current
state-of-the-art.
- Abstract(参考訳): 実践的なデータサイエンスの問題は、欠落データに遭遇する。
様々な解が存在し、それぞれが不足発生過程に依存する強さと弱点を持つ。
ここでは,不完全なデータセットを計算せずにモデル化できる観測変数のみを用いた,学習と推論のための理論的枠組みを開発する。
情報と測度理論の議論を用いて、欠落データから生じる潜在的なバイアスに対して規則化する潜在空間表現を持つモデルを構築する。
このアプローチの理論的特性は、合成データセットを用いて経験的に実証される。
このアプローチのパフォーマンスは、欠落した11のベンチマークデータセットと3つの欠落パターンにまたがった18のデータセットでテストされている。
提案手法は, インプテーション法の弱点を克服し, 現状を上回っていることを示す。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Optimal Transport for Structure Learning Under Missing Data [31.240965564055138]
そこで本稿では,最適なトランスポートに基づくデータから因果構造を学習するためのスコアベースアルゴリズムを提案する。
我々のフレームワークは,ほとんどのシミュレーションや実データ設定において競合する手法よりも,真の因果構造を効果的に回復することが示されている。
論文 参考訳(メタデータ) (2024-02-23T10:49:04Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Efficient Multidimensional Functional Data Analysis Using Marginal
Product Basis Systems [2.4554686192257424]
多次元関数データのサンプルから連続表現を学習するためのフレームワークを提案する。
本研究では, テンソル分解により, 得られた推定問題を効率的に解けることを示す。
我々は、ニューロイメージングにおける真のデータ応用で締めくくっている。
論文 参考訳(メタデータ) (2021-07-30T16:02:15Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z) - MAIN: Multihead-Attention Imputation Networks [4.427447378048202]
本稿では,任意のモデルに適用可能なマルチヘッドアテンションに基づく新しいメカニズムを提案する。
提案手法は、下流タスクの性能を向上させるために、入力データの欠落パターンを誘導的にモデル化する。
論文 参考訳(メタデータ) (2021-02-10T13:50:02Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Multiple Imputation with Denoising Autoencoder using Metamorphic Truth
and Imputation Feedback [0.0]
データの内部表現を学習するために,Denoising Autoencoder を用いた多重命令モデルを提案する。
我々は、属性の統計的整合性を維持するために、変成真理と帰納フィードバックの新たなメカニズムを用いる。
提案手法は,多くの標準的なテストケースにおいて,様々な欠落メカニズムや欠落したデータのパターンに対するインパルスの効果を検証し,他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-19T18:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。