論文の概要: A Training-free Synthetic Data Selection Method for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2501.15201v1
- Date: Sat, 25 Jan 2025 12:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:39.800545
- Title: A Training-free Synthetic Data Selection Method for Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションのための学習不要な合成データ選択法
- Authors: Hao Tang, Siyue Yu, Jian Pang, Bingfeng Zhang,
- Abstract要約: 合成データを用いたセグメンテーションセグメンタの訓練は、容易なアクセシビリティと膨大な量のために注目されている。
これまでのほとんどの方法は、大規模な合成画像アノテーションのサンプルを作成し、それら全てでセグメンタを訓練することに焦点を当てていた。
信頼性の高い合成データセットを構築するための高品質なサンプルを選択するために,CLIPを用いた学習不要なSDS(Synthetic Data Selection)戦略を提案する。
- 参考スコア(独自算出の注目度): 14.96784749682609
- License:
- Abstract: Training semantic segmenter with synthetic data has been attracting great attention due to its easy accessibility and huge quantities. Most previous methods focused on producing large-scale synthetic image-annotation samples and then training the segmenter with all of them. However, such a solution remains a main challenge in that the poor-quality samples are unavoidable, and using them to train the model will damage the training process. In this paper, we propose a training-free Synthetic Data Selection (SDS) strategy with CLIP to select high-quality samples for building a reliable synthetic dataset. Specifically, given massive synthetic image-annotation pairs, we first design a Perturbation-based CLIP Similarity (PCS) to measure the reliability of synthetic image, thus removing samples with low-quality images. Then we propose a class-balance Annotation Similarity Filter (ASF) by comparing the synthetic annotation with the response of CLIP to remove the samples related to low-quality annotations. The experimental results show that using our method significantly reduces the data size by half, while the trained segmenter achieves higher performance. The code is released at https://github.com/tanghao2000/SDS.
- Abstract(参考訳): 合成データを用いたセグメンテーションセグメンタの訓練は、容易なアクセシビリティと膨大な量のために注目されている。
これまでのほとんどの方法は、大規模な合成画像アノテーションのサンプルを作成し、それら全てでセグメンタを訓練することに焦点を当てていた。
しかし、そのようなソリューションは、品質の悪いサンプルは避けられず、モデルをトレーニングするために使用するとトレーニングプロセスにダメージを与えるという点において、依然として大きな課題である。
本稿では,CLIPを用いた学習不要なSDS(Synthetic Data Selection)戦略を提案し,信頼性の高い合成データセットを構築するための高品質なサンプルを選択する。
具体的には、大量の合成画像アノテーションペアを与えられた場合、まず摂動に基づくCLIP類似度(PCS)を設計し、合成画像の信頼性を測定し、低画質の画像を用いたサンプルを除去する。
次に、CLIPの応答と合成アノテーションを比較して、低品質アノテーションに関連するサンプルを除去し、クラスバランスアノテーション類似度フィルタ(ASF)を提案する。
実験の結果,本手法はデータサイズを半減させるが,訓練されたセグメンタは高い性能を達成できることがわかった。
コードはhttps://github.com/tanghao2000/SDSで公開されている。
関連論文リスト
- SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models [9.340077455871736]
画像認識における長い尾の分布は、いくつかの支配階級間の深刻な不均衡のため、大きな課題となる。
近年,画像分類のための合成データ作成に大規模な生成モデルが用いられている。
本稿では,データ不均衡の影響を解消するために,長い尾のデータセットを補完する合成データを提案する。
論文 参考訳(メタデータ) (2024-08-29T05:33:59Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Learning with Noisy Labels Using Collaborative Sample Selection and
Contrastive Semi-Supervised Learning [76.00798972439004]
Collaborative Sample Selection (CSS)は、特定されたクリーンセットからノイズの多いサンプルを削除する。
半教師付き学習において、対照的な損失を伴う協調学習機構を導入する。
論文 参考訳(メタデータ) (2023-10-24T05:37:20Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Generative Semi-supervised Learning with Meta-Optimized Synthetic
Samples [5.384630221560811]
半教師付き学習(SSL)はラベル付きデータセットとラベルなしデータセットを使用して、深い分類モデルをトレーニングするための有望なアプローチである。
本稿では,SSLモデルをラベルなしのデータセットなしでトレーニングすることは可能か,という研究課題について検討する。
多様な領域に数百万のサンプルを含むデータセットに基づいて学習した生成基盤モデルから生成された合成データセットを用いたSSL手法を提案する。
論文 参考訳(メタデータ) (2023-09-28T03:47:26Z) - Synthetic Augmentation with Large-scale Unconditional Pre-training [4.162192894410251]
アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
論文 参考訳(メタデータ) (2023-08-08T03:34:04Z) - Explore the Power of Synthetic Data on Few-shot Object Detection [27.26215175101865]
Few-shot Object Detection (FSOD) は、トレーニングのいくつかの例に限って、新しいカテゴリのオブジェクト検出器を拡張することを目的としている。
近年のテキスト・画像生成モデルでは,高品質な画像を生成する上で有望な結果が得られている。
この研究は、最先端のテキスト・ツー・イメージ・ジェネレータから生成された合成画像がFSODタスクにどのように貢献するかを幅広く研究している。
論文 参考訳(メタデータ) (2023-03-23T12:34:52Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Weakly Supervised-Based Oversampling for High Imbalance and High
Dimensionality Data Classification [2.9283685972609494]
オーバーサンプリングは、不均衡な分類を解決する効果的な方法である。
合成サンプルの不正確なラベルは、データセットの分布を歪ませる。
本稿では,合成試料の不正確なラベル付けを扱うために,弱教師付き学習を導入する。
論文 参考訳(メタデータ) (2020-09-29T15:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。