論文の概要: BlockEcho: Retaining Long-Range Dependencies for Imputing Block-Wise
Missing Data
- arxiv url: http://arxiv.org/abs/2402.18800v1
- Date: Thu, 29 Feb 2024 02:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:23:16.769702
- Title: BlockEcho: Retaining Long-Range Dependencies for Imputing Block-Wise
Missing Data
- Title(参考訳): BlockEcho:Block-Wiseミスデータに対する長距離依存性を維持する
- Authors: Qiao Han, Mingqian Li, Yao Yang and Yiteng Zhai
- Abstract要約: ブロックワイドなデータ不足は、実世界のデータ計算タスクにおいて重大な課題を生じさせる。
多くのSOTA行列補完法は、主に予測のために近隣の要素を過度に頼っているため、効果が低かった。
より包括的な解法として,新しい行列補完手法BlockEchoを提案する。
- 参考スコア(独自算出の注目度): 2.507127323074818
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Block-wise missing data poses significant challenges in real-world data
imputation tasks. Compared to scattered missing data, block-wise gaps
exacerbate adverse effects on subsequent analytic and machine learning tasks,
as the lack of local neighboring elements significantly reduces the
interpolation capability and predictive power. However, this issue has not
received adequate attention. Most SOTA matrix completion methods appeared less
effective, primarily due to overreliance on neighboring elements for
predictions. We systematically analyze the issue and propose a novel matrix
completion method ``BlockEcho" for a more comprehensive solution. This method
creatively integrates Matrix Factorization (MF) within Generative Adversarial
Networks (GAN) to explicitly retain long-distance inter-element relationships
in the original matrix. Besides, we incorporate an additional discriminator for
GAN, comparing the generator's intermediate progress with pre-trained MF
results to constrain high-order feature distributions. Subsequently, we
evaluate BlockEcho on public datasets across three domains. Results demonstrate
superior performance over both traditional and SOTA methods when imputing
block-wise missing data, especially at higher missing rates. The advantage also
holds for scattered missing data at high missing rates. We also contribute on
the analyses in providing theoretical justification on the optimality and
convergence of fusing MF and GAN for missing block data.
- Abstract(参考訳): ブロック単位で欠落したデータは、実世界のデータインプテーションタスクにおいて大きな課題となる。
散乱したデータと比較すると、ブロックワイドギャップはその後の分析および機械学習タスクに悪影響を及ぼし、局所的な近傍要素の欠如は補間能力と予測能力を大幅に低下させる。
しかし、この問題には十分な注意が払われていない。
多くのSOTA行列補完法は、主に予測のために隣接する要素を過度に頼っているため、効果が低かった。
そこで我々は,この問題を体系的に解析し,より包括的ソリューションのための新しい行列補完法 ``BlockEcho" を提案する。
この方法は、GAN(Generative Adversarial Networks)にマトリックス因子分解(MF)を創造的に統合し、元の行列における長距離要素間関係を明示的に保持する。
さらに,ganの判別器を付加し,生成器の中間進行と事前学習したmf結果を比較し,高次特徴分布を制約する。
次に、3つのドメインにわたる公開データセット上でBlockEchoを評価する。
従来のSOTA法とSOTA法は,ブロック単位の欠落データ,特に高い欠落率で高い性能を示した。
また、欠落率の高い散逸データにもメリットがある。
また,ブロックデータ不足に対するMFとGANの融合の最適性と収束性を理論的に正当化する上でも寄与する。
関連論文リスト
- Missing Data Imputation With Granular Semantics and AI-driven Pipeline for Bankruptcy Prediction [0.34530027457862006]
この研究は、倒産予測のためのパイプラインの設計に焦点を当てている。
欠落した値、高次元データ、高クラス不均衡データベースの存在は、そのタスクにおける大きな課題である。
粒度のセマンティクスを付加した新しいデータ計算法が導入された。
論文 参考訳(メタデータ) (2024-03-15T13:01:09Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Multiple Imputation via Generative Adversarial Network for
High-dimensional Blockwise Missing Value Problems [6.123324869194195]
本稿では,GAN(Generative Adversarial Network)による多重インプットを提案する。
MI-GANは、高次元データセット上で既存の最先端計算手法と高い性能を示す。
特に、MI-GANは統計的推測と計算速度の点で他の計算方法よりも優れている。
論文 参考訳(メタデータ) (2021-12-21T20:19:37Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Federated Expectation Maximization with heterogeneity mitigation and
variance reduction [0.0]
本稿では、潜在変数モデルに対する期待最大化(EM)アルゴリズムの最初の拡張であるFedEMを紹介する。
通信の複雑さを軽減するため、FedEMは十分なデータ統計を適切に定義した。
その結果,生物多様性モニタリングに欠落した値の計算処理を応用した理論的知見が得られた。
論文 参考訳(メタデータ) (2021-11-03T09:14:34Z) - Resource-constrained Federated Edge Learning with Heterogeneous Data:
Formulation and Analysis [8.863089484787835]
ヘテロジニアスデータによる不均一な統計的課題を解決するために, 分散されたニュートン型ニュートン型トレーニングスキームであるFedOVAを提案する。
FedOVAはマルチクラス分類問題をより単純なバイナリ分類問題に分解し、アンサンブル学習を用いてそれぞれの出力を結合する。
論文 参考訳(メタデータ) (2021-10-14T17:35:24Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - A High-Performance Implementation of Bayesian Matrix Factorization with
Limited Communication [10.639704288188767]
行列分解アルゴリズムは予測の不確実性を定量化し、過度な適合を避けることができる。
計算コストが禁じられているため、大規模なデータには広く使われていない。
スケーラビリティに対する両アプローチの最先端が組み合わさることを示します。
論文 参考訳(メタデータ) (2020-04-06T11:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。