論文の概要: Detecting covariate drift in text data using document embeddings and
dimensionality reduction
- arxiv url: http://arxiv.org/abs/2309.10000v1
- Date: Sun, 17 Sep 2023 07:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 18:29:02.067961
- Title: Detecting covariate drift in text data using document embeddings and
dimensionality reduction
- Title(参考訳): 文書埋め込みと次元減少を用いたテキストデータの共変量ドリフトの検出
- Authors: Vinayak Sodar, Ankit Sekseria
- Abstract要約: 文書埋め込み,次元低減技術,ドリフト検出手法の有効性について検討した。
実験により, 埋設工法, 次元減少工法, ドリフト検出法の組み合わせにより, 他よりも優れた性能が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting covariate drift in text data is essential for maintaining the
reliability and performance of text analysis models. In this research, we
investigate the effectiveness of different document embeddings, dimensionality
reduction techniques, and drift detection methods for identifying covariate
drift in text data. We explore three popular document embeddings: term
frequency-inverse document frequency (TF-IDF) using Latent semantic
analysis(LSA) for dimentionality reduction and Doc2Vec, and BERT embeddings,
with and without using principal component analysis (PCA) for dimensionality
reduction. To quantify the divergence between training and test data
distributions, we employ the Kolmogorov-Smirnov (KS) statistic and the Maximum
Mean Discrepancy (MMD) test as drift detection methods. Experimental results
demonstrate that certain combinations of embeddings, dimensionality reduction
techniques, and drift detection methods outperform others in detecting
covariate drift. Our findings contribute to the advancement of reliable text
analysis models by providing insights into effective approaches for addressing
covariate drift in text data.
- Abstract(参考訳): テキスト分析モデルの信頼性と性能を維持するためには,テキストデータ中の共変ドリフトの検出が不可欠である。
本研究では,テキストデータ中の共変量ドリフトを識別するための異なる文書埋め込み,次元低減手法,ドリフト検出手法の有効性について検討する。
本稿では,3つの一般的な文書埋め込みについて検討する。Latent semantic Analysis (LSA) とDoc2Vec と BERT は,主成分分析 (PCA) を使わずに次元化を行う。
トレーニングデータ分布とテストデータ分布の相違を定量化するために,kolmogorov-smirnov (ks) 統計と最大平均不一致 (mmd) 検定をドリフト検出法として用いた。
実験の結果, 組込み法, 次元縮小法, ドリフト検出法の組み合わせが, コ変量ドリフトの検出において他の手法よりも優れていることがわかった。
本研究は,テキストデータにおける共変量ドリフトに対処する効果的なアプローチの洞察を提供することにより,信頼性の高いテキスト解析モデルの進歩に寄与する。
関連論文リスト
- Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - A Neighbor-Searching Discrepancy-based Drift Detection Scheme for Learning Evolving Data [40.00357483768265]
本研究では,Nighbor-Searching Discrepancyに基づく新しい概念ドリフト検出手法を提案する。
提案手法は,仮想ドリフトを無視しながら,実概念ドリフトを高精度に検出することができる。
また、ある階級の侵略や撤退を特定することで、分類境界の変化の方向を示すこともできる。
論文 参考訳(メタデータ) (2024-05-23T04:03:36Z) - A Quantitative Evaluation of Score Distillation Sampling Based
Text-to-3D [54.78611187426158]
本研究では,SDS手法の故障事例を定量的に分析し,人間の評価によって相互に検証する,より客観的な定量的評価指標を提案する。
計算効率の良い新しいベースラインモデルを設計することで,この解析の有効性を実証する。
論文 参考訳(メタデータ) (2024-02-29T00:54:09Z) - Towards stable real-world equation discovery with assessing
differentiating quality influence [52.2980614912553]
一般的に用いられる有限差分法に代わる方法を提案する。
我々は,これらの手法を実問題と類似した問題に適用可能であること,および方程式発見アルゴリズムの収束性を確保する能力の観点から評価する。
論文 参考訳(メタデータ) (2023-11-09T23:32:06Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Uncovering Drift in Textual Data: An Unsupervised Method for Detecting
and Mitigating Drift in Machine Learning Models [9.035254826664273]
機械学習におけるドリフト(drift)とは、モデルが動作しているデータやコンテキストの統計的性質が時間とともに変化し、性能が低下する現象を指す。
提案手法では, 目標分布として生産データのサンプルを符号化し, モデルトレーニングデータを基準分布として符号化する。
また,ドリフトの根本原因である生産データのサブセットも同定する。
これらの高ドリフトサンプルを用いて再トレーニングしたモデルでは、オンライン顧客エクスペリエンスの品質指標のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2023-09-07T16:45:42Z) - Adaptive novelty detection with false discovery rate guarantee [1.8249324194382757]
有限標本における検出された新規性に対する偽発見率(FDR)を柔軟に制御する手法を提案する。
複数のテスト文献に触発されて、nullの割合に適応するAdaDetectの変種を提案する。
これらの手法は、天体物理学の応用を含む、合成データセットと実世界のデータセットに説明される。
論文 参考訳(メタデータ) (2022-08-13T17:14:55Z) - Detecting Concept Drift in the Presence of Sparsity -- A Case Study of
Automated Change Risk Assessment System [0.8021979227281782]
文学におけるテクスティットパリシティ(textitsparsity)と呼ばれる欠落値は、多くの実世界のデータセットの共通の特徴である。
本研究では,異なる種類の疎性に対する様々な統計およびMLに基づくデータ計算手法の欠落した値のパターンについて検討する。
次に、異なるメトリクスに基づいて、欠落した値を持つデータセットを与えられた最良のコンセプトドリフト検出器を選択する。
論文 参考訳(メタデータ) (2022-07-27T04:27:49Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Concept Drift Detection: Dealing with MissingValues via Fuzzy Distance
Estimations [40.77597229122878]
データストリームでは、異なる時点に到達した観測データの分布が変化する可能性がある。
欠損値がコンセプトドリフト検出に重大な影響を与えることを示すが、ファジィ集合理論を用いて観測をモデル化することで、計算よりも信頼性の高い結果が得られる。
論文 参考訳(メタデータ) (2020-08-09T05:25:46Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。