論文の概要: A Unified Framework for Task-Driven Data Quality Management
- arxiv url: http://arxiv.org/abs/2106.05484v1
- Date: Thu, 10 Jun 2021 03:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:16:11.457934
- Title: A Unified Framework for Task-Driven Data Quality Management
- Title(参考訳): タスク駆動データ品質管理のための統一フレームワーク
- Authors: Tianhao Wang, Yi Zeng, Ming Jin, Ruoxi Jia
- Abstract要約: 高性能なデータは、高性能機械学習(ML)モデルのトレーニングに不可欠である。
既存のデータ品質管理スキームは、MLのパフォーマンスを十分に改善することはできない。
本稿では,タスク駆動型モデルに依存しないDQMフレームワークDataSifterを提案する。
- 参考スコア(独自算出の注目度): 10.092524512413831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality data is critical to train performant Machine Learning (ML)
models, highlighting the importance of Data Quality Management (DQM). Existing
DQM schemes often cannot satisfactorily improve ML performance because, by
design, they are oblivious to downstream ML tasks. Besides, they cannot handle
various data quality issues (especially those caused by adversarial attacks)
and have limited applications to only certain types of ML models. Recently,
data valuation approaches (e.g., based on the Shapley value) have been
leveraged to perform DQM; yet, empirical studies have observed that their
performance varies considerably based on the underlying data and training
process. In this paper, we propose a task-driven, multi-purpose, model-agnostic
DQM framework, DataSifter, which is optimized towards a given downstream ML
task, capable of effectively removing data points with various defects, and
applicable to diverse models. Specifically, we formulate DQM as an optimization
problem and devise a scalable algorithm to solve it. Furthermore, we propose a
theoretical framework for comparing the worst-case performance of different DQM
strategies. Remarkably, our results show that the popular strategy based on the
Shapley value may end up choosing the worst data subset in certain practical
scenarios. Our evaluation shows that DataSifter achieves and most often
significantly improves the state-of-the-art performance over a wide range of
DQM tasks, including backdoor, poison, noisy/mislabel data detection, data
summarization, and data debiasing.
- Abstract(参考訳): 高性能データは、データ品質管理(DQM)の重要性を強調する、パフォーマンスのよい機械学習モデル(ML)のトレーニングに不可欠である。
既存のDQMスキームは、設計上、下流のMLタスクに難渋するため、MLパフォーマンスを満足して改善できないことが多い。
さらに、さまざまなデータ品質問題(特に敵攻撃による問題)に対処することができず、特定の種類のMLモデルに限られる。
近年、データ評価手法(例えばShapley値に基づく)がDQMの実行に活用されているが、実証的研究により、その性能は基礎となるデータとトレーニングプロセスに基づいて大きく異なることが確認されている。
本稿では、タスク駆動、多目的、モデル非依存のdqmフレームワーク、datasifterを提案する。これは、所定の下流mlタスクに最適化され、様々な欠陥のあるデータポイントを効果的に除去し、多様なモデルに適用することができる。
具体的には,dqmを最適化問題として定式化し,スケーラブルなアルゴリズムを考案する。
さらに,異なるDQM戦略の最悪の性能を比較するための理論的枠組みを提案する。
驚くべきことに、shapley値に基づく一般的な戦略は、特定の実用的なシナリオで最悪のデータサブセットを選択することになるかもしれません。
評価の結果,datasifterは,バックドア,毒物,ノイズ/ミスラベルデータ検出,データ要約,データデバイアスなど,幅広いdqmタスクにおいて最先端の性能を向上し,性能を著しく向上していることがわかった。
関連論文リスト
- How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Generalizable Error Modeling for Search Relevance Data Annotation Tasks [0.0]
人間のデータアノテーションは、機械学習(ML)と人工知能(AI)システムの品質を形成する上で重要である。
この文脈における重要な課題の1つは、MLモデルの性能が低下する可能性があるため、アノテーションエラーによって引き起こされることである。
本稿では,3つの産業規模のMLアプリケーションを対象とした検索関連アノテーションタスクにおいて,潜在的なエラーを検出するよう訓練された予測誤差モデルを提案する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark [0.13764085113103217]
同じベンチマークデータセット(異常検出のためのフローベースリアルタイムデータセットであるUGR'16)に対する比較的小さな変更は、考慮した機械学習技術よりも、モデルパフォーマンスに著しく影響することを示します。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術に,より注意を払う必要があることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - An Investigation of Smart Contract for Collaborative Machine Learning
Model Training [3.5679973993372642]
協調機械学習(CML)はビッグデータ時代において様々な分野に浸透してきた。
MLモデルのトレーニングには大量の高品質なデータが必要であるため、データのプライバシに関する懸念を取り除く必要がある。
ブロックチェーンに基づいて、スマートコントラクトはデータ保存とバリデーションの自動実行を可能にする。
論文 参考訳(メタデータ) (2022-09-12T04:25:01Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。