論文の概要: DPERC: Direct Parameter Estimation for Mixed Data
- arxiv url: http://arxiv.org/abs/2501.10540v1
- Date: Fri, 17 Jan 2025 20:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:31.762348
- Title: DPERC: Direct Parameter Estimation for Mixed Data
- Title(参考訳): DPERC:混合データの直接パラメータ推定
- Authors: Tuan L. Vo, Quan Huu Do, Uyen Dang, Thu Nguyen, Pål Halvorsen, Michael A. Riegler, Binh T. Nguyen,
- Abstract要約: カテゴリー特徴量(DPERC)を用いたランダム不一致データの直接推定法を提案する。
DPERCは、連続的な特徴に欠落した値を含む混合データに合わせた直接パラメータ推定のための効率的なアプローチである。
提案手法は,混合データ構造に埋め込まれた情報を効果的に活用する。
- 参考スコア(独自算出の注目度): 5.319419944378011
- License:
- Abstract: The covariance matrix is a foundation in numerous statistical and machine-learning applications such as Principle Component Analysis, Correlation Heatmap, etc. However, missing values within datasets present a formidable obstacle to accurately estimating this matrix. While imputation methods offer one avenue for addressing this challenge, they often entail a trade-off between computational efficiency and estimation accuracy. Consequently, attention has shifted towards direct parameter estimation, given its precision and reduced computational burden. In this paper, we propose Direct Parameter Estimation for Randomly Missing Data with Categorical Features (DPERC), an efficient approach for direct parameter estimation tailored to mixed data that contains missing values within continuous features. Our method is motivated by leveraging information from categorical features, which can significantly enhance covariance matrix estimation for continuous features. Our approach effectively harnesses the information embedded within mixed data structures. Through comprehensive evaluations of diverse datasets, we demonstrate the competitive performance of DPERC compared to various contemporary techniques. In addition, we also show by experiments that DPERC is a valuable tool for visualizing the correlation heatmap.
- Abstract(参考訳): 共分散行列は、原則成分分析、相関ヒートマップなど、多くの統計および機械学習アプリケーションの基礎となっている。
しかし、データセット内の欠落した値は、この行列を正確に見積もるために、恐ろしい障害となる。
計算効率と推定精度の間にはトレードオフが生じることが多い。
その結果、その精度と計算負荷の低減から、直接パラメータ推定に注目が移った。
本稿では,連続特徴量内に欠落した値を含む混合データに適したパラメータ推定法として,カテゴリー特徴量付きランダム欠落データ(DPERC)の直接パラメータ推定を提案する。
本手法は,連続的特徴量に対する共分散行列推定を大幅に向上させることができる分類的特徴量からの情報を活用することによって動機付けを行う。
提案手法は,混合データ構造に埋め込まれた情報を効果的に活用する。
多様なデータセットの総合的な評価を通じて、DPERCの競争性能を様々な現代技術と比較した。
さらに,DPERCは相関ヒートマップの可視化に有用なツールであることを示す。
関連論文リスト
- ARD-VAE: A Statistical Formulation to Find the Relevant Latent Dimensions of Variational Autoencoders [0.5759862457142761]
本稿では,データセットのモデル化に必要な潜在因子を統計的に定式化する。
我々は、変分オートエンコーダ(ARD-VAE)における自動関連性検出手法を提案手法と呼ぶ。
論文 参考訳(メタデータ) (2025-01-18T23:27:05Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Instance-Specific Asymmetric Sensitivity in Differential Privacy [2.855485723554975]
我々は指数的メカニズムを通して出力を選択するためのパラダイムを提供する以前の作業の上に構築する。
我々のフレームワークは、近接度メートル法をわずかに修正し、スパースベクトル技法の単純かつ効率的な応用を提供する。
論文 参考訳(メタデータ) (2023-11-02T05:01:45Z) - Correlation visualization under missing values: a comparison between
imputation and direct parameter estimation methods [4.963490281438653]
様々なデータ手法が相関プロットに与える影響を比較し,ランダムとモノトーンという2つの共通欠落パターンに着目した。
実験では, 直接パラメータ推定手法であるDPERを用いて相関行列をプロットすることを推奨する。
論文 参考訳(メタデータ) (2023-05-10T10:52:30Z) - Exogenous Data in Forecasting: FARM -- A New Measure for Relevance
Evaluation [62.997667081978825]
FARM - Forward Relevance Aligned Metricという新しいアプローチを導入する。
我々のフォワード法は、その後のデータポイントの変化を時系列に合わせるために比較する角測度に依存する。
第1の検証ステップとして、FARMアプローチの合成信号・代表信号への適用について述べる。
論文 参考訳(メタデータ) (2023-04-21T15:22:33Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - FCMI: Feature Correlation based Missing Data Imputation [0.0]
本稿では,FCMIと呼ばれる相関関係に基づいて,データセットの欠落を補足する効率的な手法を提案する。
提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いて回帰モデルを構築する。
分類データセットと回帰データセットの両方で行った実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2021-06-26T13:35:33Z) - Doubly Robust Semiparametric Difference-in-Differences Estimators with
High-Dimensional Data [15.27393561231633]
不均一な治療効果を推定するための2段半パラメトリック差分差分推定器を提案する。
第1段階では、確率スコアを推定するために、一般的な機械学習手法が使用できる。
第2段階ではパラメトリックパラメータと未知関数の両方の収束率を導出する。
論文 参考訳(メタデータ) (2020-09-07T15:14:29Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。