論文の概要: AI for the Routine, Humans for the Complex: Accuracy-Driven Data Labelling with Mixed Integer Linear Programming
- arxiv url: http://arxiv.org/abs/2507.04990v1
- Date: Mon, 07 Jul 2025 13:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.433742
- Title: AI for the Routine, Humans for the Complex: Accuracy-Driven Data Labelling with Mixed Integer Linear Programming
- Title(参考訳): AI for the Routine, Humans for the Complex:curcuracy-Driven Data Labelling with Mixed Integer Linear Programming
- Authors: Mohammad Hossein Amini, Mehrdad Sabetzadeh, Shiva Nejati,
- Abstract要約: OPALは人手によるラベリング手法であり、ラベリングに必要な手作業を最小限に抑えつつ、所望の精度レベルを目標にすることができる。
本稿では,テストデータの自動ラベリングとテストデータの自動検証という,ビジョンシステムのコンテキストにおける2つのタスクに対するOPALの評価を行う。
- 参考スコア(独自算出の注目度): 4.670347587555517
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The scarcity of accurately labelled data remains a major challenge in deep learning (DL). Many DL approaches rely on semi-supervised methods, which focus on constructing large datasets that require only a minimal amount of human-labelled data. Since DL training algorithms can tolerate moderate label noise, it has generally been acceptable for the accuracy of labels in large training datasets to fall well short of a perfect 100%. However, when it comes to testing DL models, achieving high label accuracy-as close to 100% as possible-is paramount for reliable verification. In this article, we introduce OPAL, a human-assisted labelling method that can be configured to target a desired accuracy level while minimizing the manual effort required for labelling. The main contribution of OPAL is a mixed-integer linear programming (MILP) formulation that minimizes labelling effort subject to a specified accuracy target. We evaluate OPAL for two tasks in the context of testing vision systems: automatic labelling of test data and automated validation of test data. Our evaluation, based on more than 2500 experiments performed on seven datasets, comparing OPAL with eight baseline methods, shows that OPAL, relying on its MILP formulation, achieves an average accuracy of 98.8%, just 1.2% below perfect accuracy, while cutting manual labelling by more than half. Further, OPAL significantly outperforms automated labelling baselines in labelling accuracy across all seven datasets, with large effect sizes, when all methods are provided with the same manual-labelling budget. For automated test-input validation, on average, OPAL reduces manual effort by 28.8% while achieving 4.5% higher accuracy than the SOTA validation baselines. Finally, we show that augmenting OPAL with an active learning loop leads to an additional 4.5% reduction in required manual labelling, without compromising accuracy.
- Abstract(参考訳): 正確なラベル付きデータの不足は、ディープラーニング(DL)において依然として大きな課題である。
多くのDLアプローチは半教師付き手法に依存しており、最小限の人間ラベル付きデータしか必要としない大規模なデータセットの構築に重点を置いている。
DLトレーニングアルゴリズムは中程度のラベルノイズを許容できるため、大規模なトレーニングデータセットにおけるラベルの精度が100%には達していないことが一般的に受け入れられている。
しかし、DLモデルをテストする場合、高いラベル精度(可能な限り100%に近い)を達成することは、信頼性の高い検証にとって最優先事項である。
本稿では,ラベル付けに必要な手作業を最小限に抑えつつ,所望の精度レベルを目標に設定可能な,人手によるラベル付け手法であるOPALを紹介する。
OPALの主な貢献は、特定の精度の対象となるラベル付け作業を最小限に抑えるMILP(mixed-integer linear programming)の定式化である。
本稿では,テストデータの自動ラベリングとテストデータの自動検証という,ビジョンシステムのコンテキストにおける2つのタスクに対するOPALの評価を行う。
我々の評価は、7つのデータセットで2500以上の実験を行い、OPALと8つのベースライン法を比較した結果、OPALはMILPの定式化に依存し、平均精度98.8%、完全精度1.2%、マニュアルラベリングを半分以上カットしていることがわかった。
さらに、OPALは、すべてのメソッドが同じ手動ラベリング予算で提供される場合、すべての7つのデータセットのラベル付け精度において、自動ラベリングベースラインよりも大幅に向上する。
自動テストインプットバリデーションでは、平均してOPALは手作業の労力を28.8%削減し、SOTAバリデーションベースラインよりも4.5%高い精度を達成した。
最後に,能動学習ループによるOPALの強化は,精度を損なうことなく,必要な手動ラベリングを4.5%削減することを示した。
関連論文リスト
- Uncertainty-aware Long-tailed Weights Model the Utility of Pseudo-labels for Semi-supervised Learning [50.868594148443215]
本研究では,不確かさを意識したアンサンブル構造(UES)を提案する。
UESは軽量でアーキテクチャに依存しないため、分類や回帰を含む様々なコンピュータビジョンタスクに容易に拡張できる。
論文 参考訳(メタデータ) (2025-03-13T02:21:04Z) - Improving the accuracy of automated labeling of specimen images datasets via a confidence-based process [9.0255922670433]
本稿では,自動ラベリング精度を大幅に向上させる手法を提案する。
初期精度の86%を生んだナイーブモデルでは,性能が向上することが実証された。
このアプローチを様々な方法で検証した後、60,000以上のハーバリウム標本の大規模なデータセットに注釈を付けました。
論文 参考訳(メタデータ) (2024-11-15T09:39:12Z) - Learning from Spatio-temporal Correlation for Semi-Supervised LiDAR Semantic Segmentation [17.151511119485246]
低予算SSLSの2つの大きな問題は、ラベルなしデータに対する品質の悪い擬似ラベルと、パフォーマンスの低下である。
非ラベルデータに対して高精度な擬似ラベルを生成する近接型ラベル推定法を提案する。
実験の結果,低予算環境では顕著な性能を示した。
論文 参考訳(メタデータ) (2024-10-09T13:57:39Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Beyond Accuracy: Automated De-Identification of Large Real-World
Clinical Text Datasets [7.6631083158336715]
本稿では,10億以上の臨床論文を識別するシステムの構築から学んだ教訓を要約する。
完全に自動化されたソリューションでは、手作業によるレビューを必要としない、非常に高いレベルの精度が必要です。
論文 参考訳(メタデータ) (2023-12-13T20:15:29Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - HydraMix-Net: A Deep Multi-task Semi-supervised Learning Approach for
Cell Detection and Classification [14.005379068469361]
半教師付き手法は、モデルの性能を向上させるために非ラベル付きデータを活用することで、大規模ラベリングセットの障壁を取り除く。
医用画像の分野におけるHydraMix-Netの半教師付き深層マルチタスク分類とローカライズ手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T15:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。