Fugu-MT 論文翻訳(概要): Dealing with missing data using attention and latent space regularization

論文の概要: Dealing with missing data using attention and latent space regularization

arxiv url: http://arxiv.org/abs/2211.07059v1
Date: Mon, 14 Nov 2022 01:05:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 19:09:16.637908
Title: Dealing with missing data using attention and latent space regularization
Title（参考訳）: 注意と潜時空間正規化を用いた欠測データ処理
Authors: Jahan C. Penny-Dimri, Christoph Bergmeir, Julian Smith
Abstract要約: 本研究では,観測変数のみを用いた学習と推論のための理論的枠組みを開発する。我々は、欠落データから生じる潜在的なバイアスに対して規則化する潜在空間表現を持つモデルを構築した。提案手法は,提案手法の弱点を克服し,現在の最先端技術よりも優れていることを示す。
参考スコア（独自算出の注目度）: 2.610470075814367
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most practical data science problems encounter missing data. A wide variety of solutions exist, each with strengths and weaknesses that depend upon the missingness-generating process. Here we develop a theoretical framework for training and inference using only observed variables enabling modeling of incomplete datasets without imputation. Using an information and measure-theoretic argument we construct models with latent space representations that regularize against the potential bias introduced by missing data. The theoretical properties of this approach are demonstrated empirically using a synthetic dataset. The performance of this approach is tested on 11 benchmarking datasets with missingness and 18 datasets corrupted across three missingness patterns with comparison against a state-of-the-art model and industry-standard imputation. We show that our proposed method overcomes the weaknesses of imputation methods and outperforms the current state-of-the-art.
Abstract（参考訳）: 実践的なデータサイエンスの問題は、欠落データに遭遇する。様々な解が存在し、それぞれが不足発生過程に依存する強さと弱点を持つ。ここでは,不完全なデータセットを計算せずにモデル化できる観測変数のみを用いた,学習と推論のための理論的枠組みを開発する。情報と測度理論の議論を用いて、欠落データから生じる潜在的なバイアスに対して規則化する潜在空間表現を持つモデルを構築する。このアプローチの理論的特性は、合成データセットを用いて経験的に実証される。このアプローチのパフォーマンスは、欠落した11のベンチマークデータセットと3つの欠落パターンにまたがった18のデータセットでテストされている。提案手法は, インプテーション法の弱点を克服し, 現状を上回っていることを示す。

関連論文リスト

A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Optimal Transport for Structure Learning Under Missing Data [31.240965564055138]
そこで本稿では,最適なトランスポートに基づくデータから因果構造を学習するためのスコアベースアルゴリズムを提案する。我々のフレームワークは,ほとんどのシミュレーションや実データ設定において競合する手法よりも,真の因果構造を効果的に回復することが示されている。
論文参考訳（メタデータ） (2024-02-23T10:49:04Z)
Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文参考訳（メタデータ） (2024-02-19T02:08:09Z)
MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文参考訳（メタデータ） (2023-07-02T03:49:47Z)
MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。 MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文参考訳（メタデータ） (2021-11-04T22:38:18Z)
Efficient Multidimensional Functional Data Analysis Using Marginal Product Basis Systems [2.4554686192257424]
多次元関数データのサンプルから連続表現を学習するためのフレームワークを提案する。本研究では, テンソル分解により, 得られた推定問題を効率的に解けることを示す。我々は、ニューロイメージングにおける真のデータ応用で締めくくっている。
論文参考訳（メタデータ） (2021-07-30T16:02:15Z)
OR-Net: Pointwise Relational Inference for Data Completion under Partial Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文参考訳（メタデータ） (2021-05-02T06:05:54Z)
MAIN: Multihead-Attention Imputation Networks [4.427447378048202]
本稿では,任意のモデルに適用可能なマルチヘッドアテンションに基づく新しいメカニズムを提案する。提案手法は、下流タスクの性能を向上させるために、入力データの欠落パターンを誘導的にモデル化する。
論文参考訳（メタデータ） (2021-02-10T13:50:02Z)
Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文参考訳（メタデータ） (2020-07-21T08:18:06Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)
Multiple Imputation with Denoising Autoencoder using Metamorphic Truth and Imputation Feedback [0.0]
データの内部表現を学習するために,Denoising Autoencoder を用いた多重命令モデルを提案する。我々は、属性の統計的整合性を維持するために、変成真理と帰納フィードバックの新たなメカニズムを用いる。提案手法は,多くの標準的なテストケースにおいて,様々な欠落メカニズムや欠落したデータのパターンに対するインパルスの効果を検証し,他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-02-19T18:26:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。