論文の概要: BiOcularGAN: Bimodal Synthesis and Annotation of Ocular Images
- arxiv url: http://arxiv.org/abs/2205.01536v1
- Date: Tue, 3 May 2022 14:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:42:36.349315
- Title: BiOcularGAN: Bimodal Synthesis and Annotation of Ocular Images
- Title(参考訳): BiOcularGAN:眼画像のバイモーダル合成とアノテーション
- Authors: Darian Toma\v{s}evi\'c, Peter Peer, Vitomir \v{S}truc
- Abstract要約: 眼画像の最先端セグメンテーション技術は、大規模アノテートデータセットに大きく依存している。
本稿では,光現実性(可視光と近赤外)眼画像の大規模データセットを合成できるBiOcularGANを提案する。
- 参考スコア(独自算出の注目度): 1.217503190366097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art segmentation techniques for ocular images are
critically dependent on large-scale annotated datasets, which are
labor-intensive to gather and often raise privacy concerns. In this paper, we
present a novel framework, called BiOcularGAN, capable of generating synthetic
large-scale datasets of photorealistic (visible light and near infrared) ocular
images, together with corresponding segmentation labels to address these
issues. At its core, the framework relies on a novel Dual-Branch StyleGAN2
(DB-StyleGAN2) model that facilitates bimodal image generation, and a Semantic
Mask Generator (SMG) that produces semantic annotations by exploiting
DB-StyleGAN2's feature space. We evaluate BiOcularGAN through extensive
experiments across five diverse ocular datasets and analyze the effects of
bimodal data generation on image quality and the produced annotations. Our
experimental results show that BiOcularGAN is able to produce high-quality
matching bimodal images and annotations (with minimal manual intervention) that
can be used to train highly competitive (deep) segmentation models that perform
well across multiple real-world datasets. The source code will be made publicly
available.
- Abstract(参考訳): 現在の眼画像の最先端のセグメンテーション技術は、収集に手間がかかり、しばしばプライバシー上の懸念を提起する大規模な注釈付きデータセットに極めて依存している。
本稿では,フォトリアリスティック(可視光および近赤外)眼画像の合成大規模データセットを,対応するセグメンテーションラベルとともに生成し,これらの問題に対処するための新しい枠組みであるbiocularganを提案する。
このフレームワークの中核は、バイモーダル画像生成を容易にする新しいDual-Branch StyleGAN2(DB-StyleGAN2)モデルと、DB-StyleGAN2の機能空間を利用してセマンティックなアノテーションを生成するセマンティックマスクジェネレータ(SMG)に依存している。
5つの多様な眼球データセットにわたる広範囲な実験を通してBiOcularGANを評価し,バイモーダルデータ生成が画像品質および生成アノテーションに与える影響を解析した。
実験結果から,biocularganは,複数の実世界のデータセットでうまく機能する高度に競争力のある(深い)セグメンテーションモデルのトレーニングに使用できる,高品質な2モード画像とアノテーション(最小限の介入で)を生成できることがわかった。
ソースコードは一般公開される予定だ。
関連論文リスト
- A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Unified Bayesian representation for high-dimensional multi-modal biomedical data for small-sample classification [0.8890696402391598]
BALDURは、マルチモーダルデータセットと小さなサンプルサイズを高次元設定で扱うように設計された新しいベイズアルゴリズムである。
このモデルは2つの異なる神経変性データセットでテストされ、最先端のモデルよりも優れ、科学文献に記載されているマーカーと一致した特徴を検出する。
論文 参考訳(メタデータ) (2024-11-11T14:51:24Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Multi-Level Global Context Cross Consistency Model for Semi-Supervised
Ultrasound Image Segmentation with Diffusion Model [0.0]
本研究では,Latent Diffusion Model (LDM) によって生成された画像を,半教師付き学習のためのラベル付き画像として利用するフレームワークを提案する。
提案手法により,確率分布の知識をセグメント化ネットワークに効果的に伝達することが可能となり,セグメント化精度が向上する。
論文 参考訳(メタデータ) (2023-05-16T14:08:24Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - METGAN: Generative Tumour Inpainting and Modality Synthesis in Light
Sheet Microscopy [4.872960046536882]
本稿では,実解剖情報を活用し,腫瘍の現実的な画像ラベル対を生成する新しい生成法を提案する。
解剖学的画像とラベルのためのデュアルパス生成器を構築し, 独立して事前学習されたセグメンタによって制約された, サイクル一貫性のある設定で学習する。
生成した画像は,既存の手法に比べて定量的に顕著に改善された。
論文 参考訳(メタデータ) (2021-04-22T11:18:17Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - EMIXER: End-to-end Multimodal X-ray Generation via Self-supervision [39.07263052525579]
我々は,X線画像と対応する自由テキストレポートを共同で合成する,エンド・ツー・エンドのMultimodal X線生成モデル(EMIXER)を提案する。
EMIXERは、1)ラベルに基づいて画像を生成すること、2)隠された埋め込みに画像をエンコードすること、3)画像埋め込みから階層的デコーダを介して対応するテキストを生成すること、、4)画像と対応するテキストの両方を評価する共同識別器により、条件付き生成対向モデルである。
EMIXER生成した合成データセットは、X線画像分類、レポート生成モデルを強化して5。
論文 参考訳(メタデータ) (2020-07-10T20:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。