論文の概要: Stratify or Die: Rethinking Data Splits in Image Segmentation
- arxiv url: http://arxiv.org/abs/2509.21056v1
- Date: Thu, 25 Sep 2025 12:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.888336
- Title: Stratify or Die: Rethinking Data Splits in Image Segmentation
- Title(参考訳): Stratify or Die: イメージセグメンテーションにおけるデータ分割の再考
- Authors: Naga Venkata Sai Jitin Jami, Thomas Altstidl, Jonas Mueller, Jindong Li, Dario Zanca, Bjoern Eskofier, Heike Leutheuser,
- Abstract要約: Iterative Pixel Stratification (IPS)は、セグメンテーションタスクに適したラベル対応サンプリング手法である。
We present Wasserstein-Driven Evolutionary Stratification (WDES), a novel genetic algorithm designed to minimize the Wasserstein distance。
- 参考スコア(独自算出の注目度): 6.391423612294428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Random splitting of datasets in image segmentation often leads to unrepresentative test sets, resulting in biased evaluations and poor model generalization. While stratified sampling has proven effective for addressing label distribution imbalance in classification tasks, extending these ideas to segmentation remains challenging due to the multi-label structure and class imbalance typically present in such data. Building on existing stratification concepts, we introduce Iterative Pixel Stratification (IPS), a straightforward, label-aware sampling method tailored for segmentation tasks. Additionally, we present Wasserstein-Driven Evolutionary Stratification (WDES), a novel genetic algorithm designed to minimize the Wasserstein distance, thereby optimizing the similarity of label distributions across dataset splits. We prove that WDES is globally optimal given enough generations. Using newly proposed statistical heterogeneity metrics, we evaluate both methods against random sampling and find that WDES consistently produces more representative splits. Applying WDES across diverse segmentation tasks, including street scenes, medical imaging, and satellite imagery, leads to lower performance variance and improved model evaluation. Our results also highlight the particular value of WDES in handling small, imbalanced, and low-diversity datasets, where conventional splitting strategies are most prone to bias.
- Abstract(参考訳): 画像セグメンテーションにおけるデータセットのランダムな分割は、しばしば非表現的なテストセットをもたらし、バイアスのある評価とモデルの一般化をもたらす。
階層化サンプリングは分類タスクにおけるラベル分布の不均衡に対処する上で有効であることが証明されているが、多ラベル構造とクラス不均衡が典型的に存在するため、これらのアイデアをセグメンテーションに拡張することは依然として困難である。
既存の階層化の概念に基づいて、セグメント化タスクに適した単純なラベル対応サンプリング手法であるIterative Pixel Stratification (IPS)を導入する。
さらに,Wasserstein-Driven Evolutionary Stratification (WDES)を提案する。これはワッサースタイン距離を最小化し,データセット分割間のラベル分布の類似性を最適化する新しい遺伝的アルゴリズムである。
We proof that WDES is global optimal given enough generation。
新たに提案した統計的不均一度測定値を用いて、ランダムサンプリングに対して両方の手法を評価し、WDESが一貫してより代表的なスプリットを生成することを発見した。
WDESをストリートシーン、医用画像、衛星画像など多様なセグメンテーションタスクに適用すると、パフォーマンスのばらつきが低くなり、モデル評価が改善される。
我々の結果は、従来の分割戦略が偏りやすい、小さく、不均衡で、低多様性なデータセットを扱う際の、WDESの特定の価値を強調した。
関連論文リスト
- Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Stochastic Segmentation with Conditional Categorical Diffusion Models [3.8168879948759953]
Denoising Diffusion Probabilistic Models に基づくセマンティックセグメンテーションのための条件カテゴリー拡散モデル(CCDM)を提案する。
以上の結果から,CCDMはLIDC上での最先端性能を実現し,従来のセグメンテーションデータセットであるCityscapesのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-03-15T19:16:47Z) - Learning from Partially Overlapping Labels: Image Segmentation under
Annotation Shift [68.6874404805223]
腹部臓器分節の文脈におけるラベルの重複から学ぶためのいくつかの方法を提案する。
半教師付きアプローチと適応的クロスエントロピー損失を組み合わせることで、不均一な注釈付きデータをうまく活用できることが判明した。
論文 参考訳(メタデータ) (2021-07-13T09:22:24Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。