論文の概要: Multiple data-driven missing imputation
- arxiv url: http://arxiv.org/abs/2507.03061v1
- Date: Thu, 03 Jul 2025 16:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.567673
- Title: Multiple data-driven missing imputation
- Title(参考訳): 多重データ駆動型欠失計算法
- Authors: Sergii Kavun,
- Abstract要約: KZImputerは、短小から中小の欠点(1-5点以上)のために設計された新しい適応型計算法である。
その中心となるメカニズムはシリーズの開始時、中間時、終了時のギャップを区別し、計算精度を最適化するために各位置に調整された技法を適用する。
KZImputerの性能は確立された計算手法に対して体系的に評価され、その後の時系列解析におけるデータ品質の向上の可能性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces KZImputer, a novel adaptive imputation method for univariate time series designed for short to medium-sized missed points (gaps) (1-5 points and beyond) with tailored strategies for segments at the start, middle, or end of the series. KZImputer employs a hybrid strategy to handle various missing data scenarios. Its core mechanism differentiates between gaps at the beginning, middle, or end of the series, applying tailored techniques at each position to optimize imputation accuracy. The method leverages linear interpolation and localized statistical measures, adapting to the characteristics of the surrounding data and the gap size. The performance of KZImputer has been systematically evaluated against established imputation techniques, demonstrating its potential to enhance data quality for subsequent time series analysis. This paper describes the KZImputer methodology in detail and discusses its effectiveness in improving the integrity of time series data. Empirical analysis demonstrates that KZImputer achieves particularly strong performance for datasets with high missingness rates (around 50% or more), maintaining stable and competitive results across statistical and signal-reconstruction metrics. The method proves especially effective in high-sparsity regimes, where traditional approaches typically experience accuracy degradation.
- Abstract(参考訳): 本稿では,KZImputerについて紹介する。KZImputerは,小~中程度の欠点(1~5点以上)を対象とした一変量時系列の適応的計算手法で,シリーズ開始時,中,終了時にセグメントを調整した手法である。
KZImputerは、さまざまな欠落したデータシナリオを扱うために、ハイブリッド戦略を採用している。
その中心となるメカニズムはシリーズの開始時、中間時、終了時のギャップを区別し、計算精度を最適化するために各位置に調整された技法を適用する。
この手法は線形補間および局所統計測度を利用して、周辺データの特性とギャップサイズに適応する。
KZImputerの性能は確立された計算手法に対して体系的に評価され、その後の時系列解析におけるデータ品質の向上の可能性を示している。
本稿では,KZImputer法について詳述し,時系列データの整合性を改善する上での有効性について論じる。
経験的分析により、KZImputerは、高い欠落率(約50%以上)のデータセットに対して特に強力なパフォーマンスを達成し、統計的および信号再構成メトリクス間の安定かつ競争的な結果を維持することが示されている。
この手法は、従来のアプローチが一般的に精度の劣化を経験する、高スパーシティーな体制において特に有効であることが証明されている。
関連論文リスト
- Enhancing Classification with Semi-Supervised Deep Learning Using Distance-Based Sample Weights [0.0]
この研究は、テストデータに近接してトレーニングサンプルを優先順位付けする半教師付きフレームワークを提案する。
12のベンチマークデータセットの実験では、精度、精度、リコールなど、主要なメトリクス間で大幅な改善が示されている。
このフレームワークは、半教師付き学習のための堅牢で実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-20T13:29:04Z) - SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training [12.745160748376794]
本稿では,データセットの整合性を維持しつつ,データのサンプリング重量を高い共通度で選択的に削減するソフトデ重複手法を提案する。
このアプローチの中心にあるのは、重複の度合いを定量化する指標である"データ共通性"(data commonness)の概念です。
経験的分析により、この手法はトレーニング効率を著しく改善し、必要なトレーニングステップを少なくとも26%減らすことなく、同等のパープレキシティスコアを達成できることが示されている。
論文 参考訳(メタデータ) (2024-07-09T08:26:39Z) - Adaptive debiased SGD in high-dimensional GLMs with streaming data [4.704144189806667]
本稿では,高次元一般化線形モデルにおけるオンライン推論に対する新しいアプローチを提案する。
提案手法は単一パスモードで動作し,全データセットアクセスや大次元要約統計ストレージを必要とする既存手法とは異なる。
我々の方法論的革新の核心は、動的目的関数に適した適応的降下アルゴリズムと、新しいオンラインデバイアス処理である。
論文 参考訳(メタデータ) (2024-05-28T15:36:48Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Multivariate Time Series Early Classification Across Channel and Time
Dimensions [3.5786621294068373]
より柔軟な早期分類パイプラインを提案し、入力チャネルをより細かく検討する。
提案手法は,等価な入力利用のための精度の向上を図り,早期分類のパラダイムを向上することができる。
論文 参考訳(メタデータ) (2023-06-26T11:30:33Z) - Exogenous Data in Forecasting: FARM -- A New Measure for Relevance
Evaluation [62.997667081978825]
FARM - Forward Relevance Aligned Metricという新しいアプローチを導入する。
我々のフォワード法は、その後のデータポイントの変化を時系列に合わせるために比較する角測度に依存する。
第1の検証ステップとして、FARMアプローチの合成信号・代表信号への適用について述べる。
論文 参考訳(メタデータ) (2023-04-21T15:22:33Z) - Adaptive Dimension Reduction and Variational Inference for Transductive
Few-Shot Classification [2.922007656878633]
適応次元の削減によりさらに改善された変分ベイズ推定に基づく新しいクラスタリング法を提案する。
提案手法は,Few-Shotベンチマークにおける現実的非バランスなトランスダクティブ設定の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-09-18T10:29:02Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - Adaptive Affinity Loss and Erroneous Pseudo-Label Refinement for Weakly
Supervised Semantic Segmentation [48.294903659573585]
本稿では,多段階アプローチの親和性学習を単一段階モデルに組み込むことを提案する。
深層ニューラルネットワークは、トレーニングフェーズで包括的なセマンティック情報を提供するために使用される。
提案手法の有効性を評価するため,PASCAL VOC 2012データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-08-03T07:48:33Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Learning Prediction Intervals for Regression: Generalization and
Calibration [12.576284277353606]
不確実性定量のための回帰における予測間隔の生成について検討する。
我々は一般学習理論を用いて、リプシッツ連続性とVC-サブグラフクラスを含む最適性と実現可能性のトレードオフを特徴づける。
我々は既存のベンチマークと比べてテスト性能の点で、区間生成とキャリブレーションアルゴリズムの強みを実証的に示している。
論文 参考訳(メタデータ) (2021-02-26T17:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。