論文の概要: Data Augmentation with Diffusion Models for Colon Polyp Localization on the Low Data Regime: How much real data is enough?
- arxiv url: http://arxiv.org/abs/2411.18926v1
- Date: Thu, 28 Nov 2024 05:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:19.186532
- Title: Data Augmentation with Diffusion Models for Colon Polyp Localization on the Low Data Regime: How much real data is enough?
- Title(参考訳): 低データレジーム上でのコロニーポリプの局在化のための拡散モデルによるデータ拡張: 実際のデータで十分か?
- Authors: Adrian Tormos, Blanca Llauradó, Fernando Núñez, Axel Romero, Dario Garcia-Gasulla, Javier Béjar,
- Abstract要約: 局所化アノテーションと共同で大腸内視鏡画像を生成する様々な拡散モデルを訓練する実験を行った。
生成されたデータは、低データ状態のYOLO v9に基づくモデルを用いて、ポリプローカライゼーションのタスクにおいて、様々な転送学習実験で使用される。
- 参考スコア(独自算出の注目度): 38.635356845350394
- License:
- Abstract: The scarcity of data in medical domains hinders the performance of Deep Learning models. Data augmentation techniques can alleviate that problem, but they usually rely on functional transformations of the data that do not guarantee to preserve the original tasks. To approximate the distribution of the data using generative models is a way of reducing that problem and also to obtain new samples that resemble the original data. Denoising Diffusion models is a promising Deep Learning technique that can learn good approximations of different kinds of data like images, time series or tabular data. Automatic colonoscopy analysis and specifically Polyp localization in colonoscopy videos is a task that can assist clinical diagnosis and treatment. The annotation of video frames for training a deep learning model is a time consuming task and usually only small datasets can be obtained. The fine tuning of application models using a large dataset of generated data could be an alternative to improve their performance. We conduct a set of experiments training different diffusion models that can generate jointly colonoscopy images with localization annotations using a combination of existing open datasets. The generated data is used on various transfer learning experiments in the task of polyp localization with a model based on YOLO v9 on the low data regime.
- Abstract(参考訳): 医療領域におけるデータの不足は、ディープラーニングモデルのパフォーマンスを妨げる。
データ拡張技術は、その問題を緩和することができるが、それらは通常、元のタスクを保存することを保証しないデータの機能的な変換に依存している。
生成モデルを用いてデータの分布を近似することは、その問題を低減し、また元のデータに似た新しいサンプルを得る方法である。
Denoising Diffusion Modelは、画像や時系列、表データなど、さまざまな種類のデータの適切な近似を学習できる、有望なディープラーニング技術である。
大腸内視鏡ビデオにおける自動大腸内視鏡解析,特にポリープの局在化は,臨床診断と治療を支援するタスクである。
ディープラーニングモデルをトレーニングするためのビデオフレームのアノテーションは、時間を要するタスクであり、通常は小さなデータセットしか取得できない。
生成されたデータの大規模なデータセットを使用したアプリケーションモデルの微調整は、パフォーマンス向上の代替となる可能性がある。
我々は,既存のオープンデータセットを組み合わせることで,局所化アノテーションと共同で大腸内視鏡画像を生成することのできる,異なる拡散モデルのトレーニング実験を行う。
生成されたデータは、低データ状態のYOLO v9に基づくモデルを用いて、ポリプローカライゼーションのタスクにおいて、様々な転送学習実験で使用される。
関連論文リスト
- Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Unconditional Latent Diffusion Models Memorize Patient Imaging Data: Implications for Openly Sharing Synthetic Data [2.04850174048739]
我々は、合成データ生成のためのCT、MR、X線データセット上で潜時拡散モデルを訓練する。
そして,新たな自己教師型コピー検出手法を用いて,記憶したトレーニングデータの量を検出する。
以上の結果から,全データセットにまたがる驚くほど高い患者のデータ記憶が得られた。
論文 参考訳(メタデータ) (2024-02-01T22:58:21Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - SubOmiEmbed: Self-supervised Representation Learning of Multi-omics Data
for Cancer Type Classification [4.992154875028543]
マルチオミクスデータの統合と解析により腫瘍の広い視野が得られ,臨床診断の精度が向上する。
SubOmiEmbedは、非常に小さなネットワークを持つベースラインであるOmiEmbedに匹敵する結果を生成する。
この作業は、突然変異に基づくゲノムデータを統合するために改善される。
論文 参考訳(メタデータ) (2022-02-03T16:39:09Z) - A Real Use Case of Semi-Supervised Learning for Mammogram Classification
in a Local Clinic of Costa Rica [0.5541644538483946]
ディープラーニングモデルのトレーニングには、かなりの量のラベル付きイメージが必要です。
多くの公開データセットが、さまざまな病院や診療所のデータで構築されている。
ラベルなしデータを利用した半教師付き深層学習手法であるMixMatchを提案し評価した。
論文 参考訳(メタデータ) (2021-07-24T22:26:50Z) - New Properties of the Data Distillation Method When Working With Tabular
Data [77.34726150561087]
データ蒸留は、必要な情報のみを保持しながら、トレーニングデータの量を減らす問題である。
蒸留した試料でトレーニングしたモデルは、元のデータセットでトレーニングしたモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-19T20:27:58Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Unsupervised Pre-trained Models from Healthy ADLs Improve Parkinson's
Disease Classification of Gait Patterns [3.5939555573102857]
パーキンソン病分類のための加速度計歩行データに関連する特徴を抽出する方法を示す。
我々の事前学習したソースモデルは畳み込みオートエンコーダで構成されており、ターゲット分類モデルは単純な多層パーセプトロンモデルである。
本研究は,Parkinson病分類の課題に対する事前学習モデルの選択が与える影響を,異なる活動群を用いて訓練した2つの異なるソースモデルについて検討する。
論文 参考訳(メタデータ) (2020-05-06T04:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。