論文の概要: Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?
- arxiv url: http://arxiv.org/abs/2507.19575v1
- Date: Fri, 25 Jul 2025 17:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.681789
- Title: Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?
- Title(参考訳): データ・スカース・メディカル・イメージ・セグメンテーションのためのデータプール化は、I.I.Dよりもデータ分散シフトを扱う方が優れているか?
- Authors: Ayush Roy, Samin Enam, Jun Xia, Vishnu Suresh Lokhande, Won Hwa Kim,
- Abstract要約: データ不足は、特にディープラーニングモデルにおいて、医療画像における大きな課題である。
深層ネットワークのすべての層にまたがる前景特徴差を制御できる手法を提案する。
本手法は,5つのデータセットにまたがる病理組織像と超音波画像における最先端のセグメンテーション性能を実現する。
- 参考スコア(独自算出の注目度): 12.292774988144949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scarcity is a major challenge in medical imaging, particularly for deep learning models. While data pooling (combining datasets from multiple sources) and data addition (adding more data from a new dataset) have been shown to enhance model performance, they are not without complications. Specifically, increasing the size of the training dataset through pooling or addition can induce distributional shifts, negatively affecting downstream model performance, a phenomenon known as the "Data Addition Dilemma". While the traditional i.i.d. assumption may not hold in multi-source contexts, assuming exchangeability across datasets provides a more practical framework for data pooling. In this work, we investigate medical image segmentation under these conditions, drawing insights from causal frameworks to propose a method for controlling foreground-background feature discrepancies across all layers of deep networks. This approach improves feature representations, which are crucial in data-addition scenarios. Our method achieves state-of-the-art segmentation performance on histopathology and ultrasound images across five datasets, including a novel ultrasound dataset that we have curated and contributed. Qualitative results demonstrate more refined and accurate segmentation maps compared to prominent baselines across three model architectures. The code will be available on Github.
- Abstract(参考訳): データ不足は、特にディープラーニングモデルにおいて、医療画像における大きな課題である。
データプーリング(複数のソースからのデータセットの組み合わせ)とデータ追加(新しいデータセットからのより多くのデータの追加)はモデルパフォーマンスを向上させることが示されているが、それらは複雑さのないものではない。
具体的には、プールや追加によるトレーニングデータセットのサイズ拡大は、分散シフトを誘発し、下流モデルのパフォーマンスに悪影響を及ぼす可能性がある。
従来の i.d. 仮定はマルチソースのコンテキストでは成立しないかもしれないが、データセット間の交換性がデータプーリングのためのより実用的なフレームワークを提供すると仮定する。
本研究では,これらの条件下での医用画像のセグメンテーションを調査し,因果関係から洞察を導き,深層ネットワークのすべての層にまたがる背景・背景特徴の相違を制御できる手法を提案する。
このアプローチは、データ追加シナリオにおいて重要な機能表現を改善します。
本手法は,5つのデータセットにまたがる病理組織学および超音波画像における最先端のセグメンテーション性能を実現する。
定性的な結果は、3つのモデルアーキテクチャにまたがる顕著なベースラインと比較して、より洗練され正確なセグメンテーションマップを示す。
コードはGithubで入手できる。
関連論文リスト
- The Data Addition Dilemma [4.869513274920574]
医療タスクのための多くの機械学習では、標準データセットは、多くの、基本的に異なるソースにまたがるデータを集約することによって構築される。
しかし、いつより多くのデータを追加することが助けになるのか、いつ、実際の設定で望ましいモデル結果の進行を妨げるのか?
この状況をtextitData Addition Dilemma と認識し、このマルチソーススケーリングコンテキストにトレーニングデータを追加すると、全体的な精度が低下し、不確実なフェアネスの結果が減少し、最悪のサブグループのパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2024-08-08T01:42:31Z) - DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis [0.7751705157998379]
十分に注釈付けされた医療データセットの不足は、ImageNetのような広範なデータセットやCLIPのような事前訓練されたモデルからの移行学習を活用する必要がある。
モデルスープは、In-Domain(ID)タスクのパフォーマンスを改善し、out-of-Distribution(OOD)データセットに対する堅牢性を高めることを目的とした、複数の微調整されたモデルの平均である。
本稿では,様々なレベルのモデルの局所的および大域的集約を伴う階層的統合手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T06:48:48Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - MoCo-Transfer: Investigating out-of-distribution contrastive learning
for limited-data domains [52.612507614610244]
我々は、モーメントコントラスト(MoCo)プレトレーニングからデータ制限のある設定への自己教師付きコントラスト表現の転送の利点を分析する。
ラベル付きおよびラベルなしデータの量によっては、より大きなアウト・オブ・ディストリビューションデータセットでの対照的な事前トレーニングは、ドメイン内でのMoCoの事前トレーニングよりも、ほぼ同等か、あるいはそれ以上のパフォーマンスが期待できる。
論文 参考訳(メタデータ) (2023-11-15T21:56:47Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Dynamic Data Augmentation via MCTS for Prostate MRI Segmentation [19.780410411548935]
本稿ではDDAug(Dynamic Data Augmentation)を提案する。
DDAug計算は、様々な拡張を表現する階層木構造を開発する。
我々の手法は、現在の最先端データ拡張戦略より優れています。
論文 参考訳(メタデータ) (2023-05-25T06:44:43Z) - Improving CT Image Segmentation Accuracy Using StyleGAN Driven Data
Augmentation [42.034896915716374]
本稿では,公開可能な大規模医療データセットをセグメント化するためのStyleGANによるアプローチを提案する。
スタイル転送はトレーニングデータセットを拡張し、新しい解剖学的音声画像を生成するために使用される。
次に、拡張データセットを使用してU-Netセグメンテーションネットワークをトレーニングし、セグメンテーション精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-02-07T06:34:10Z) - Learning from Partially Overlapping Labels: Image Segmentation under
Annotation Shift [68.6874404805223]
腹部臓器分節の文脈におけるラベルの重複から学ぶためのいくつかの方法を提案する。
半教師付きアプローチと適応的クロスエントロピー損失を組み合わせることで、不均一な注釈付きデータをうまく活用できることが判明した。
論文 参考訳(メタデータ) (2021-07-13T09:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。