論文の概要: Leveraging the Christoffel Function for Outlier Detection in Data Streams
- arxiv url: http://arxiv.org/abs/2508.16617v1
- Date: Wed, 13 Aug 2025 16:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.588305
- Title: Leveraging the Christoffel Function for Outlier Detection in Data Streams
- Title(参考訳): データストリームにおける外部検出のためのChristoffel関数の活用
- Authors: Kévin Ducharlet, Louise Travé-Massuyès, Jean-Bernard Lasserre, Marie-Véronique Le Lann, Youssef Miloudi,
- Abstract要約: 外乱検出は、データマイニングの領域において重要な意味を持つ。
データストリームの処理は、分散の非定常的な性質と、継続的に増加するデータボリュームによる課題を示す。
本稿では,DyCFとDyCGの2つの新しい手法を紹介する。
- 参考スコア(独自算出の注目度): 0.7557499794873329
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Outlier detection holds significant importance in the realm of data mining, particularly with the growing pervasiveness of data acquisition methods. The ability to identify outliers in data streams is essential for maintaining data quality and detecting faults. However, dealing with data streams presents challenges due to the non-stationary nature of distributions and the ever-increasing data volume. While numerous methods have been proposed to tackle this challenge, a common drawback is the lack of straightforward parameterization in many of them. This article introduces two novel methods: DyCF and DyCG. DyCF leverages the Christoffel function from the theory of approximation and orthogonal polynomials. Conversely, DyCG capitalizes on the growth properties of the Christoffel function, eliminating the need for tuning parameters. Both approaches are firmly rooted in a well-defined algebraic framework, meeting crucial demands for data stream processing, with a specific focus on addressing low-dimensional aspects and maintaining data history without memory cost. A comprehensive comparison between DyCF, DyCG, and state-of-the-art methods is presented, using both synthetic and real industrial data streams. The results show that DyCF outperforms fine-tuning methods, offering superior performance in terms of execution time and memory usage. DyCG performs less well, but has the considerable advantage of requiring no tuning at all.
- Abstract(参考訳): 外乱検出はデータマイニングの領域において重要な意味を持ち、特にデータ取得手法の普及とともに重要である。
データストリームの外れ値を特定する能力は、データ品質の維持と障害の検出に不可欠である。
しかし、データストリームの処理は、分散の非定常的な性質と、継続的に増加するデータボリュームによる課題を呈している。
この課題に対処するために多くの方法が提案されているが、一般的な欠点は、その多くが直接的なパラメータ化の欠如である。
本稿では,DyCFとDyCGの2つの新しい手法を紹介する。
DyCFは近似と直交多項式の理論からクリスティーフェル関数を利用する。
逆に、DyCGはChristoffel関数の成長特性を活かし、パラメータをチューニングする必要がなくなる。
どちらのアプローチも、明確に定義された代数的フレームワークに根ざしており、データストリーム処理の重要な要求を満たし、低次元の側面に対処し、メモリコストなしでデータ履歴を維持することに特に重点を置いている。
合成データストリームと実産業データストリームの両方を用いて,DyCF,DyCG,最先端手法の総合比較を行った。
その結果、DyCFは微調整方法よりも優れており、実行時間やメモリ使用量において優れた性能が得られることがわかった。
DyCGの性能は低いが、チューニングを全く必要としないという大きな利点がある。
関連論文リスト
- Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。
2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。
Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文 参考訳(メタデータ) (2025-08-20T11:59:32Z) - Efficient Conformance Checking of Rich Data-Aware Declare Specifications (Extended) [49.46686813437884]
一般的なデータ型やデータ条件とリッチな設定で,データを考慮した最適アライメントを計算可能であることを示す。
これは、制御フローとデータ依存関係を扱うために、よく知られた2つのアプローチを慎重に組み合わせることで達成される。
論文 参考訳(メタデータ) (2025-06-30T10:16:21Z) - DONOD: Efficient and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning [22.704995231753397]
大規模言語モデル(LLM)のアドホック命令の微調整は、ドメイン固有の適応に広く採用されている。
本研究では,軽量なモデル固有データ解析手法であるDONODを提案する。
データセット全体の70%をフィルタリングすることで、ターゲットドメインの精度を14.90%、クロスドメインの精度を5.67%向上させる。
論文 参考訳(メタデータ) (2025-04-21T02:25:03Z) - Adversarial Collaborative Filtering for Free [27.949683060138064]
CF(Collaborative Filtering)は、ユーザが関心のある項目を見つけるのに役立つ。
既存の方法はノイズの多いデータ問題に悩まされ、推奨の質に悪影響を及ぼす。
本稿では, 計算コストを犠牲にすることなく, 対向学習を行う簡易かつ効果的な手法として, シャープネス対応協調フィルタリング(CF)を提案する。
論文 参考訳(メタデータ) (2023-08-20T19:25:38Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Causal Discovery from Incomplete Data using An Encoder and Reinforcement
Learning [2.4469484645516837]
新たなエンコーダと強化学習(RL)を用いて不完全データから因果構造を発見する手法を提案する。
エンコーダは、データ計算の欠如と特徴抽出のために設計されている。
本手法は不完全な観測データを入力として、因果構造グラフを生成する。
論文 参考訳(メタデータ) (2020-06-09T23:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。