論文の概要: Gradient Guided Hypotheses: A unified solution to enable machine learning models on scarce and noisy data regimes
- arxiv url: http://arxiv.org/abs/2405.19210v1
- Date: Wed, 29 May 2024 15:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:31:41.482847
- Title: Gradient Guided Hypotheses: A unified solution to enable machine learning models on scarce and noisy data regimes
- Title(参考訳): Gradient Guided hypotheses: 希少でノイズの多いデータ構造上で機械学習モデルを可能にする統一的なソリューション
- Authors: Paulo Neves, Joerg K. Wegner, Philippe Schwaller,
- Abstract要約: データ品質問題に対処するために,アーキテクチャに依存しないGGH(Gradient Guided hypotheses)を提案する。
GGHは仮説から勾配を解析し、データの異なるパターンとおそらく矛盾するパターンのプロキシとして分析する。
本研究は,GGHを様々なアプリケーションにおけるデータ品質とモデル性能を向上させるための有望なソリューションとして提示する。
- 参考スコア(独自算出の注目度): 0.3592274960837379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring high-quality data is paramount for maximizing the performance of machine learning models and business intelligence systems. However, challenges in data quality, including noise in data capture, missing records, limited data production, and confounding variables, significantly constrain the potential performance of these systems. In this study, we propose an architecture-agnostic algorithm, Gradient Guided Hypotheses (GGH), designed to address these challenges. GGH analyses gradients from hypotheses as a proxy of distinct and possibly contradictory patterns in the data. This framework entails an additional step in machine learning training, where gradients can be included or excluded from backpropagation. In this manner, missing and noisy data are addressed through a unified solution that perceives both challenges as facets of the same overarching issue: the propagation of erroneous information. Experimental validation of GGH is conducted using real-world open-source datasets, where records with missing rates of up to 98.5% are simulated. Comparative analysis with state-of-the-art imputation methods demonstrates a substantial improvement in model performance achieved by GGH. Specifically in very high scarcity regimes, GGH was found to be the only viable solution. Additionally, GGH's noise detection capabilities are showcased by introducing simulated noise into the datasets and observing enhanced model performance after filtering out the noisy data. This study presents GGH as a promising solution for improving data quality and model performance in various applications.
- Abstract(参考訳): 機械学習モデルとビジネスインテリジェンスシステムのパフォーマンスを最大化する上で、高品質なデータの確保が最重要である。
しかし、データキャプチャのノイズ、レコードの欠如、データ生成の制限、変数の不足など、データ品質の課題は、これらのシステムの潜在的なパフォーマンスを著しく制限する。
本研究では,これらの課題に対処するために,アーキテクチャに依存しないGGH(Gradient Guided hypotheses)を提案する。
GGHは仮説から勾配を解析し、データの異なるパターンとおそらく矛盾するパターンのプロキシとして分析する。
このフレームワークには、バックプロパゲーションからグラデーションを含めたり除外したりできる機械学習トレーニングの新たなステップが含まれている。
このようにして、欠落したデータと騒々しいデータは統一されたソリューションによって処理され、両方の課題が同じ大まかな問題のファセットとして認識される:誤った情報の伝播である。
GGHの実験的検証は、実世界のオープンソースデータセットを使用して行われ、98.5%の欠落率のレコードをシミュレートする。
最先端計算法との比較分析により,GGHによるモデル性能の大幅な向上が示されている。
特に、非常に希少な体制では、GGHが唯一の有効溶液であることが判明した。
さらに、GGHのノイズ検出機能は、データセットにシミュレートされたノイズを導入し、ノイズの多いデータをフィルタリングした後、強化されたモデルパフォーマンスを観察することで示される。
本研究は,GGHを様々なアプリケーションにおけるデータ品質とモデル性能を向上させるための有望なソリューションとして提示する。
関連論文リスト
- Robust Gaussian Processes via Relevance Pursuit [17.39376866275623]
本稿では,データポイント固有ノイズレベルを推定することにより,スパースアウトレーヤに対するロバスト性を実現するGPモデルを提案する。
我々は,データポイント固有ノイズ分散において,関連する対数限界確率が強く抑制されるようなパラメータ化が可能であることを,驚くべきことに示している。
論文 参考訳(メタデータ) (2024-10-31T17:59:56Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [37.54523122932728]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
データ多様性の低い問題に対処するため、私たちのパイプラインは知識グラフ(KG)を使用してエンティティや量を取り出す。
高いデータノイズに対処するため、GCSEモデルは偽硬陰性サンプルの影響を制限するためにガウス分解関数を使用する。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - Automating the Discovery of Partial Differential Equations in Dynamical Systems [0.0]
適応型ラッソを用いてスパースレグレッションを利用して自動的にPDEを識別するARGOSフレームワークARGOS-RALの拡張を提案する。
各種ノイズレベルおよびサンプルサイズの下での標準PDEの同定におけるARGOS-RALの性能を厳格に評価した。
以上の結果から,ARGOS-ALはデータから基礎となるPDEを効果的かつ確実に同定し,ほとんどの場合において逐次しきい値リッジ回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-25T09:23:03Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Comprehensive Exploration of Synthetic Data Generation: A Survey [4.485401662312072]
この研究は、過去10年間で417のSynthetic Data Generationモデルを調査します。
その結果、ニューラルネットワークベースのアプローチが普及し、モデルのパフォーマンスと複雑性が向上したことが明らかになった。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
論文 参考訳(メタデータ) (2024-01-04T20:23:51Z) - A Guide for Practical Use of ADMG Causal Data Augmentation [0.0]
これらの課題に対処するためのソリューションとして、因果データ拡張戦略が指摘されている。
異なる設定を考慮したADMG因果拡大法を実験的に検討した。
論文 参考訳(メタデータ) (2023-04-03T09:31:13Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Improving a State-of-the-Art Heuristic for the Minimum Latency Problem
with Data Mining [69.00394670035747]
ハイブリッドメタヒューリスティックスは、オペレーション研究のトレンドとなっている。
成功例は、Greedy Randomized Adaptive Search Procedures (GRASP)とデータマイニング技術を組み合わせたものだ。
論文 参考訳(メタデータ) (2019-08-28T13:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。