Fugu-MT 論文翻訳(概要): BiOcularGAN: Bimodal Synthesis and Annotation of Ocular Images

論文の概要: BiOcularGAN: Bimodal Synthesis and Annotation of Ocular Images

arxiv url: http://arxiv.org/abs/2205.01536v1
Date: Tue, 3 May 2022 14:43:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-04 13:42:36.349315
Title: BiOcularGAN: Bimodal Synthesis and Annotation of Ocular Images
Title（参考訳）: BiOcularGAN:眼画像のバイモーダル合成とアノテーション
Authors: Darian Toma\v{s}evi\'c, Peter Peer, Vitomir \v{S}truc
Abstract要約: 眼画像の最先端セグメンテーション技術は、大規模アノテートデータセットに大きく依存している。本稿では,光現実性(可視光と近赤外)眼画像の大規模データセットを合成できるBiOcularGANを提案する。
参考スコア（独自算出の注目度）: 1.217503190366097
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current state-of-the-art segmentation techniques for ocular images are critically dependent on large-scale annotated datasets, which are labor-intensive to gather and often raise privacy concerns. In this paper, we present a novel framework, called BiOcularGAN, capable of generating synthetic large-scale datasets of photorealistic (visible light and near infrared) ocular images, together with corresponding segmentation labels to address these issues. At its core, the framework relies on a novel Dual-Branch StyleGAN2 (DB-StyleGAN2) model that facilitates bimodal image generation, and a Semantic Mask Generator (SMG) that produces semantic annotations by exploiting DB-StyleGAN2's feature space. We evaluate BiOcularGAN through extensive experiments across five diverse ocular datasets and analyze the effects of bimodal data generation on image quality and the produced annotations. Our experimental results show that BiOcularGAN is able to produce high-quality matching bimodal images and annotations (with minimal manual intervention) that can be used to train highly competitive (deep) segmentation models that perform well across multiple real-world datasets. The source code will be made publicly available.
Abstract（参考訳）: 現在の眼画像の最先端のセグメンテーション技術は、収集に手間がかかり、しばしばプライバシー上の懸念を提起する大規模な注釈付きデータセットに極めて依存している。本稿では,フォトリアリスティック(可視光および近赤外)眼画像の合成大規模データセットを,対応するセグメンテーションラベルとともに生成し,これらの問題に対処するための新しい枠組みであるbiocularganを提案する。このフレームワークの中核は、バイモーダル画像生成を容易にする新しいDual-Branch StyleGAN2(DB-StyleGAN2)モデルと、DB-StyleGAN2の機能空間を利用してセマンティックなアノテーションを生成するセマンティックマスクジェネレータ(SMG)に依存している。 5つの多様な眼球データセットにわたる広範囲な実験を通してBiOcularGANを評価し,バイモーダルデータ生成が画像品質および生成アノテーションに与える影響を解析した。実験結果から,biocularganは,複数の実世界のデータセットでうまく機能する高度に競争力のある(深い)セグメンテーションモデルのトレーニングに使用できる,高品質な2モード画像とアノテーション(最小限の介入で)を生成できることがわかった。ソースコードは一般公開される予定だ。

関連論文リスト

MedSegFactory: Text-Guided Generation of Medical Image-Mask Pairs [29.350200296504696]
MedSegFactoryは、モダリティとタスクをまたいだペア化された医療画像とセグメンテーションマスクを生成する汎用的なフレームワークである。既存のセグメンテーションツールを強化するためにイメージマスクペアを提供する、無制限のデータリポジトリとして機能することを目指している。
論文参考訳（メタデータ） (2025-04-09T13:56:05Z)
LEGION: Learning to Ground and Explain for Synthetic Image Detection [49.958951540410816]
提案するSynthScarsは,12,236個の完全合成画像からなる高品質で多様なデータセットである。 4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。人工物の検出,分割,説明を統合するマルチモーダル大規模言語モデル(MLLM)に基づく画像偽造解析フレームワークであるLEGIONを提案する。
論文参考訳（メタデータ） (2025-03-19T14:37:21Z)
MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文参考訳（メタデータ） (2024-11-19T16:20:27Z)
Unified Bayesian representation for high-dimensional multi-modal biomedical data for small-sample classification [0.8890696402391598]
BALDURは、マルチモーダルデータセットと小さなサンプルサイズを高次元設定で扱うように設計された新しいベイズアルゴリズムである。このモデルは2つの異なる神経変性データセットでテストされ、最先端のモデルよりも優れ、科学文献に記載されているマーカーと一致した特徴を検出する。
論文参考訳（メタデータ） (2024-11-11T14:51:24Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文参考訳（メタデータ） (2023-08-11T14:38:11Z)
Multi-Level Global Context Cross Consistency Model for Semi-Supervised Ultrasound Image Segmentation with Diffusion Model [0.0]
本研究では,Latent Diffusion Model (LDM) によって生成された画像を,半教師付き学習のためのラベル付き画像として利用するフレームワークを提案する。提案手法により,確率分布の知識をセグメント化ネットワークに効果的に伝達することが可能となり,セグメント化精度が向上する。
論文参考訳（メタデータ） (2023-05-16T14:08:24Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
METGAN: Generative Tumour Inpainting and Modality Synthesis in Light Sheet Microscopy [4.872960046536882]
本稿では,実解剖情報を活用し,腫瘍の現実的な画像ラベル対を生成する新しい生成法を提案する。解剖学的画像とラベルのためのデュアルパス生成器を構築し, 独立して事前学習されたセグメンタによって制約された, サイクル一貫性のある設定で学習する。生成した画像は,既存の手法に比べて定量的に顕著に改善された。
論文参考訳（メタデータ） (2021-04-22T11:18:17Z)
Semantic Segmentation with Generative Models: Semi-Supervised Learning and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文参考訳（メタデータ） (2021-04-12T21:41:25Z)
EMIXER: End-to-end Multimodal X-ray Generation via Self-supervision [39.07263052525579]
我々は,X線画像と対応する自由テキストレポートを共同で合成する,エンド・ツー・エンドのMultimodal X線生成モデル(EMIXER)を提案する。 EMIXERは、1)ラベルに基づいて画像を生成すること、2)隠された埋め込みに画像をエンコードすること、3)画像埋め込みから階層的デコーダを介して対応するテキストを生成すること、、4)画像と対応するテキストの両方を評価する共同識別器により、条件付き生成対向モデルである。 EMIXER生成した合成データセットは、X線画像分類、レポート生成モデルを強化して5。
論文参考訳（メタデータ） (2020-07-10T20:19:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。