論文の概要: Extended Missing Data Imputation via GANs for Ranking Applications
- arxiv url: http://arxiv.org/abs/2011.02089v3
- Date: Wed, 10 Nov 2021 16:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:46:41.827876
- Title: Extended Missing Data Imputation via GANs for Ranking Applications
- Title(参考訳): ランキングアプリケーションのためのgansによる拡張欠落データインプテーション
- Authors: Grace Deng, Cuize Han, David S. Matteson
- Abstract要約: Conditional Imputation GANは、GAN(Generative Adversarial Networks)に基づく拡張欠落データ計算手法である。
提案手法は,EMAR(Extended Always Missing At Random)とEMAR(Extended Always Missing At Random)のメカニズムに対して,単純なMCARを超越した最適GAN計算を実現する。
- 参考スコア(独自算出の注目度): 5.2710726359379265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Conditional Imputation GAN, an extended missing data imputation
method based on Generative Adversarial Networks (GANs). The motivating use case
is learning-to-rank, the cornerstone of modern search, recommendation system,
and information retrieval applications. Empirical ranking datasets do not
always follow standard Gaussian distributions or Missing Completely At Random
(MCAR) mechanism, which are standard assumptions of classic missing data
imputation methods. Our methodology provides a simple solution that offers
compatible imputation guarantees while relaxing assumptions for missing
mechanisms and sidesteps approximating intractable distributions to improve
imputation quality. We prove that the optimal GAN imputation is achieved for
Extended Missing At Random (EMAR) and Extended Always Missing At Random (EAMAR)
mechanisms, beyond the naive MCAR. Our method demonstrates the highest
imputation quality on the open-source Microsoft Research Ranking (MSR) Dataset
and a synthetic ranking dataset compared to state-of-the-art benchmarks and
across various feature distributions. Using a proprietary Amazon Search ranking
dataset, we also demonstrate comparable ranking quality metrics for ranking
models trained on GAN-imputed data compared to ground-truth data.
- Abstract(参考訳): 本稿では,GAN(Generative Adversarial Networks)に基づく拡張欠落データ計算手法であるConditional Imputation GANを提案する。
モチベーションのあるユースケースは、最新の検索、レコメンデーションシステム、および情報検索アプリケーションの基礎である学習からランクへの学習である。
経験的ランキングデータセットは、常に標準的なガウス分布や、古典的な欠落データ計算手法の標準的な仮定であるMCAR(Missing Completely At Random)メカニズムに従うとは限らない。
提案手法は,不備な機構の仮定を緩和し,難解な分布を近似して計算品質を向上しながら,整合性のある計算保証を提供する。
提案手法は,EMAR(Extended Always Missing At Random)とEMAR(Extended Always Missing At Random)のメカニズムに対して,単純なMCARを超えた最適GAN計算を実現する。
提案手法は,Microsoft Research Ranking (MSR) データセットと合成ランキングデータセットを,最先端のベンチマークと比較し,様々な特徴分布に対して高い計算精度を示す。
プロプライエタリなAmazon Searchランキングデータセットを使用して、GANインプットデータに基づいてトレーニングされたランキングモデルと、地上データとを比較した。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Multiple Imputation via Generative Adversarial Network for
High-dimensional Blockwise Missing Value Problems [6.123324869194195]
本稿では,GAN(Generative Adversarial Network)による多重インプットを提案する。
MI-GANは、高次元データセット上で既存の最先端計算手法と高い性能を示す。
特に、MI-GANは統計的推測と計算速度の点で他の計算方法よりも優れている。
論文 参考訳(メタデータ) (2021-12-21T20:19:37Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Imputation of Missing Data with Class Imbalance using Conditional
Generative Adversarial Networks [24.075691766743702]
そこで本研究では,そのクラス固有の特徴に基づいて,欠落したデータを出力する新しい手法を提案する。
CGAIN(Con Conditional Generative Adversarial Imputation Network)は、クラス固有の分布を用いて、欠落したデータをインプットする。
提案手法をベンチマークデータセットで検証し,最先端の計算手法や一般的な計算手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-01T02:26:54Z) - PC-GAIN: Pseudo-label Conditional Generative Adversarial Imputation
Networks for Incomplete Data [19.952411963344556]
PC-GAIN(PC-GAIN)は、PC-GAIN(PC-GAIN)と呼ばれる新しい教師なしデータ計算法である。
まず,低損失率データのサブセットに含まれる潜在的なカテゴリ情報を学習するための事前学習手順を提案する。
そして、合成擬似ラベルを用いて補助分類器を決定する。
論文 参考訳(メタデータ) (2020-11-16T08:08:26Z) - Missing Data Imputation using Optimal Transport [43.14084843713895]
最適輸送距離を利用して基準を定量化し、損失関数に変換し、欠落したデータ値をインプットする。
エンド・ツー・エンド・ラーニングを用いてこれらの損失を最小限に抑えるための実践的手法を提案する。
これらの実験により、OTベースの手法は、欠落した値の高い割合であっても、最先端の計算手法と一致しているか、性能が良くないことを示す。
論文 参考訳(メタデータ) (2020-02-10T15:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。