論文の概要: Effort-Optimized, Accuracy-Driven Labelling and Validation of Test Inputs for DL Systems: A Mixed-Integer Linear Programming Approach
- arxiv url: http://arxiv.org/abs/2507.04990v2
- Date: Wed, 17 Sep 2025 17:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 14:28:51.999998
- Title: Effort-Optimized, Accuracy-Driven Labelling and Validation of Test Inputs for DL Systems: A Mixed-Integer Linear Programming Approach
- Title(参考訳): DLシステムのための最適化された精度駆動型ラベリングとテスト入力の検証:混合整数線形計画法
- Authors: Mohammad Hossein Amini, Mehrdad Sabetzadeh, Shiva Nejati,
- Abstract要約: 本稿では,人手によるラベル付け手法であるOPALを紹介する。
OPALは7つのデータセットのラベル付け精度において、自動ラベリングベースラインを著しく上回る。
アクティブラーニングループでOPALを増強すると、必要な手動ラベリングが4.5%削減されることが示されている。
- 参考スコア(独自算出の注目度): 1.7283394177075249
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Software systems increasingly include AI components based on deep learning (DL). Reliable testing of such systems requires near-perfect test-input validity and label accuracy, with minimal human effort. Yet, the DL community has largely overlooked the need to build highly accurate datasets with minimal effort, since DL training is generally tolerant of labelling errors. This challenge, instead, reflects concerns more familiar to software engineering, where a central goal is to construct high-accuracy test inputs, with accuracy as close to 100% as possible, while keeping associated costs in check. In this article we introduce OPAL, a human-assisted labelling method that can be configured to target a desired accuracy level while minimizing the manual effort required for labelling. The main contribution of OPAL is a mixed-integer linear programming (MILP) formulation that minimizes labelling effort subject to a specified accuracy target. To evaluate OPAL we instantiate it for two tasks in the context of testing vision systems: automatic labelling of test inputs and automated validation of test inputs. Our evaluation, based on more than 2500 experiments performed on seven datasets, comparing OPAL with eight baseline methods, shows that OPAL, relying on its MILP formulation, achieves an average accuracy of 98.8%, while cutting manual labelling by more than half. OPAL significantly outperforms automated labelling baselines in labelling accuracy across all seven datasets, when all methods are provided with the same manual-labelling budget. For automated test-input validation, on average, OPAL reduces manual effort by 28.8% while achieving 4.5% higher accuracy than the SOTA test-input validation baselines. Finally, we show that augmenting OPAL with an active-learning loop leads to an additional 4.5% reduction in required manual labelling, without compromising accuracy.
- Abstract(参考訳): ソフトウェアシステムは、ディープラーニング(DL)に基づいたAIコンポーネントをますます含んでいる。
このようなシステムの信頼性テストは、人間の努力を最小限に抑えて、ほぼ完全なテストインプットの妥当性とラベルの精度を必要とする。
しかし、DLトレーニングは一般的にラベル付けエラーに耐性があるため、DLコミュニティは、最小限の労力で高度に正確なデータセットを構築する必要性をほとんど見落としている。
この課題は、ソフトウェアエンジニアリングに慣れ親しんだ懸念を反映しており、そこでは、高い精度のテストインプットを可能な限り100%近い精度で構築し、関連するコストを抑えることが中心的な目標である。
本稿では,ラベル付けに必要な手作業を最小限に抑えつつ,所望の精度レベルを目標に設定可能な,人手によるラベル付け手法であるOPALを紹介する。
OPALの主な貢献は、特定の精度の対象となるラベル付け作業を最小限に抑えるMILP(mixed-integer linear programming)の定式化である。
OPALを評価するためには,テスト入力の自動ラベル付けとテスト入力の自動検証という,視覚システムのコンテキストにおける2つのタスクをインスタンス化する。
7つのデータセットで2500以上の実験を行い、OPALと8つのベースライン法を比較した結果、OPALはMILPの定式化に依存し、平均98.8%の精度を達成し、手動ラベリングを半分以上カットした。
OPALは、すべてのメソッドが同じ手動ラベリング予算で提供される場合、全7データセットのラベル付け精度において、自動ラベリングベースラインよりも大幅に向上する。
自動テストインプットバリデーションでは、平均してOPALは手作業の労力を28.8%削減し、SOTAテストインプットバリデーションベースラインよりも4.5%高い精度を達成した。
最後に,能動学習ループによるOPALの強化は,精度を損なうことなく,必要な手動ラベリングを4.5%削減することを示した。
関連論文リスト
- Natural Language Processing Models for Robust Document Categorization [0.0]
この研究は、AIを現実世界の自動化パイプラインに統合する際の重要な考慮事項である、分類精度と計算効率のバランスに重点を置いている。
Naive Bayes分類器、双方向LSTMネットワーク、微調整変圧器ベースBERTモデルの3つのモデルについて検討した。
BERTは99%を超える高い精度を達成したが、トレーニング時間を大幅に長くし、計算資源を大きくした。
BiLSTMモデルは強い妥協をもたらし、およそ98.56%の精度を達成し、適度なトレーニングコストを維持し、強い文脈理解を提供した。
論文 参考訳(メタデータ) (2026-02-23T20:33:22Z) - DiCaP: Distribution-Calibrated Pseudo-labeling for Semi-Supervised Multi-Label Learning [83.94574004953346]
半教師付きマルチラベル学習は、ラベルのないデータを活用してモデルの性能を向上させることを目的としている。
既存の手法の多くは、その品質に関わらず、すべての擬似ラベルに等しい重みを割り当てる。
擬似ラベル重みの校正に後部精度を推定する正当性認識フレームワークDiCaPを提案する。
論文 参考訳(メタデータ) (2025-11-25T11:55:02Z) - From Requirements to Test Cases: An NLP-Based Approach for High-Performance ECU Test Case Automation [0.5249805590164901]
本研究では,自然言語処理技術を用いて,自然言語要求を構造化されたテストケース仕様に変換する手法について検討する。
400個の特徴要素文書のデータセットを用いて、信号名や値などの重要な要素を抽出するための両方のアプローチを評価した。
Rule-Based 法は NER 法よりも優れており、95% の精度で単一信号でより単純な要求を満たすことができる。
論文 参考訳(メタデータ) (2025-05-01T14:23:55Z) - Uncertainty-aware Long-tailed Weights Model the Utility of Pseudo-labels for Semi-supervised Learning [50.868594148443215]
本研究では,不確かさを意識したアンサンブル構造(UES)を提案する。
UESは軽量でアーキテクチャに依存しないため、分類や回帰を含む様々なコンピュータビジョンタスクに容易に拡張できる。
論文 参考訳(メタデータ) (2025-03-13T02:21:04Z) - Test Input Validation for Vision-based DL Systems: An Active Learning Approach [3.760715803298828]
ディープラーニング(DL)システムをテストするには、広範囲で多様だが有効なテスト入力が必要である。
本稿では,視覚に基づくDLシステムに対するテスト入力検証手法を提案する。
論文 参考訳(メタデータ) (2025-01-03T02:50:43Z) - Improving the accuracy of automated labeling of specimen images datasets via a confidence-based process [9.0255922670433]
本稿では,自動ラベリング精度を大幅に向上させる手法を提案する。
初期精度の86%を生んだナイーブモデルでは,性能が向上することが実証された。
このアプローチを様々な方法で検証した後、60,000以上のハーバリウム標本の大規模なデータセットに注釈を付けました。
論文 参考訳(メタデータ) (2024-11-15T09:39:12Z) - Learning from Spatio-temporal Correlation for Semi-Supervised LiDAR Semantic Segmentation [17.151511119485246]
低予算SSLSの2つの大きな問題は、ラベルなしデータに対する品質の悪い擬似ラベルと、パフォーマンスの低下である。
非ラベルデータに対して高精度な擬似ラベルを生成する近接型ラベル推定法を提案する。
実験の結果,低予算環境では顕著な性能を示した。
論文 参考訳(メタデータ) (2024-10-09T13:57:39Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Beyond Accuracy: Automated De-Identification of Large Real-World
Clinical Text Datasets [7.6631083158336715]
本稿では,10億以上の臨床論文を識別するシステムの構築から学んだ教訓を要約する。
完全に自動化されたソリューションでは、手作業によるレビューを必要としない、非常に高いレベルの精度が必要です。
論文 参考訳(メタデータ) (2023-12-13T20:15:29Z) - MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。
MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。
2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T20:08:15Z) - When and Why Test Generators for Deep Learning Produce Invalid Inputs:
an Empirical Study [4.632232395989182]
ディープラーニング(DL)ベースのシステムをテストするには、DLシステムがトレーニングデータセットを超えて一般化するかどうかを評価するために、本質的に、大規模で代表的なテストセットが必要である。
逆テスト入力ジェネレータ(TIG)は、誤動作を引き起こすことによってDLシステムの問題を露呈する人工的な入力を生成するために提案されている。
本稿では,自動検証と人的検証の両方により,TIGが有効な入力を生成できる範囲について検討する。
論文 参考訳(メタデータ) (2022-12-21T21:10:49Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - Detecting Errors and Estimating Accuracy on Unlabeled Data with
Self-training Ensembles [38.23896575179384]
本稿では,この2つの課題に同時に対処する,原則的かつ実用的な枠組みを提案する。
1つのインスタンス化は、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
論文 参考訳(メタデータ) (2021-06-29T21:32:51Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - HydraMix-Net: A Deep Multi-task Semi-supervised Learning Approach for
Cell Detection and Classification [14.005379068469361]
半教師付き手法は、モデルの性能を向上させるために非ラベル付きデータを活用することで、大規模ラベリングセットの障壁を取り除く。
医用画像の分野におけるHydraMix-Netの半教師付き深層マルチタスク分類とローカライズ手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T15:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。