論文の概要: Synth4Seg -- Learning Defect Data Synthesis for Defect Segmentation using Bi-level Optimization
- arxiv url: http://arxiv.org/abs/2410.18490v1
- Date: Thu, 24 Oct 2024 07:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:50:06.302662
- Title: Synth4Seg -- Learning Defect Data Synthesis for Defect Segmentation using Bi-level Optimization
- Title(参考訳): Synth4Seg -- Bi-level Optimization を用いた欠陥セグメンテーションのための欠陥データ合成学習
- Authors: Shancong Mou, Raviteja Vemulapalli, Shiyu Li, Yuxuan Liu, C Thomas, Meng Cao, Haoping Bai, Oncel Tuzel, Ping Huang, Jiulong Shan, Jianjun Shi,
- Abstract要約: 両レベル最適化に基づく合成欠陥データ生成フレームワークを提案する。
提案手法は, 合成欠陥の貼付に最も有効な位置の学習に有効であることを示す。
また、異なる拡張固有の欠陥データソースの重み付けを学習することで、最大2.6%のパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 37.775768735361275
- License:
- Abstract: Defect segmentation is crucial for quality control in advanced manufacturing, yet data scarcity poses challenges for state-of-the-art supervised deep learning. Synthetic defect data generation is a popular approach for mitigating data challenges. However, many current methods simply generate defects following a fixed set of rules, which may not directly relate to downstream task performance. This can lead to suboptimal performance and may even hinder the downstream task. To solve this problem, we leverage a novel bi-level optimization-based synthetic defect data generation framework. We use an online synthetic defect generation module grounded in the commonly-used Cut\&Paste framework, and adopt an efficient gradient-based optimization algorithm to solve the bi-level optimization problem. We achieve simultaneous training of the defect segmentation network, and learn various parameters of the data synthesis module by maximizing the validation performance of the trained defect segmentation network. Our experimental results on benchmark datasets under limited data settings show that the proposed bi-level optimization method can be used for learning the most effective locations for pasting synthetic defects thereby improving the segmentation performance by up to 18.3\% when compared to pasting defects at random locations. We also demonstrate up to 2.6\% performance gain by learning the importance weights for different augmentation-specific defect data sources when compared to giving equal importance to all the data sources.
- Abstract(参考訳): 欠陥セグメンテーションは先進的な製造において品質管理に不可欠であるが、データ不足は最先端の教師付きディープラーニングに課題をもたらす。
合成欠陥データ生成は、データの課題を軽減するための一般的なアプローチである。
しかし、現在の多くのメソッドは、ダウンストリームタスクのパフォーマンスに直接関連しない、一定のルールのセットに従って単に欠陥を生成する。
これは、最適以下のパフォーマンスをもたらし、ダウンストリームタスクを妨害する可能性がある。
この問題を解決するために、我々は新しい二段階最適化に基づく合成欠陥データ生成フレームワークを利用する。
我々は、一般的に使われているCut\/Pasteフレームワークを基盤としたオンライン合成欠陥生成モジュールを使用し、双方向最適化問題を解決するために、効率的な勾配に基づく最適化アルゴリズムを採用する。
我々は、欠陥セグメントネットワークの同時トレーニングを実現し、トレーニングされた欠陥セグメントネットワークの検証性能を最大化することにより、データ合成モジュールの様々なパラメータを学習する。
実験結果から, 提案手法は, 合成欠陥の貼付において最も効果的な位置の学習に有効であり, ランダムな位置における貼付欠陥と比較して, セグメンテーション性能を最大18.3倍向上させることができることがわかった。
また、すべてのデータソースに等しく重要性を与えるのと比較して、異なる拡張固有の欠陥データソースの重み付けを学習することで、パフォーマンスが最大2.6\%向上することを示す。
関連論文リスト
- A Bilevel Optimization Framework for Imbalanced Data Classification [1.6385815610837167]
合成データによるノイズや重なりの落とし穴を回避する新しいアンダーサンプリング手法を提案する。
多数データをランダムにアンサンプするのではなく、モデル損失を改善する能力に基づいてデータポイントをアンアンサンプする。
本手法は,モデル損失の改善を指標として,データポイントが損失に与える影響を評価し,それを改善することができない者を拒絶する。
論文 参考訳(メタデータ) (2024-10-15T01:17:23Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Information towards Maximum Posterior Ratio for deep learning
on Imbalanced Data [1.7495515703051119]
マイノリティクラスのための合成データを生成することによって,データのバランスをとる手法を提案する。
提案手法は,高エントロピーサンプルを同定することにより,情報領域のバランスを優先する。
実験結果から,提案手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2024-01-05T01:08:26Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Communication-Efficient Robust Federated Learning with Noisy Labels [144.31995882209932]
フェデレーテッド・ラーニング(FL)は、分散した位置データの上で、将来性のあるプライバシ保護機械学習パラダイムである。
FLにおける雑音ラベルの効果を緩和する学習に基づく再重み付け手法を提案する。
提案手法は,複数の実世界のデータセットにおいて,各種ベースラインと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-11T16:21:17Z) - GLISTER: Generalization based Data Subset Selection for Efficient and
Robust Learning [11.220278271829699]
GeneraLIzationベースのデータSubset selecTion for Efficient and Robust LearningフレームワークであるGlisterを紹介します。
パラメータ更新とともに反復的にデータ選択を行う反復オンラインアルゴリズムglister-onlineを提案する。
筆者らのフレームワークは,(a) と (c) の場合に) 効率, 精度の両面で向上し, 他の最先端の堅牢な学習アルゴリズムと比較して, より効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-19T08:41:34Z) - High Dimensional Level Set Estimation with Bayesian Neural Network [58.684954492439424]
本稿では,ベイズニューラルネットワークを用いた高次元レベル集合推定問題を解く新しい手法を提案する。
各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングする。
合成データセットと実世界データセットの数値実験により,提案手法は既存手法よりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2020-12-17T23:21:53Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。