論文の概要: I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP
- arxiv url: http://arxiv.org/abs/2409.12399v1
- Date: Thu, 19 Sep 2024 01:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 15:03:37.767556
- Title: I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP
- Title(参考訳): I2I-Galip:ジェネレーティブ・逆境CLIPを用いた教師なし医用画像翻訳
- Authors: Yilmaz Korkmaz, Vishal M. Patel,
- Abstract要約: ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.506544165999564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unpaired image-to-image translation is a challenging task due to the absence of paired examples, which complicates learning the complex mappings between the distinct distributions of the source and target domains. One of the most commonly used approach for this task is CycleGAN which requires the training of a new pair of generator-discriminator networks for each domain pair. In this paper, we propose a new image-to-image translation framework named Image-to-Image-Generative-Adversarial-CLIP (I2I-Galip) where we utilize a pre-trained multi-model foundation model (i.e., CLIP) to mitigate the need of separate generator-discriminator pairs for each source-target mapping while achieving better and more efficient multi-domain translation. By utilizing the massive knowledge gathered during pre-training a foundation model, our approach makes use of a single lightweight generator network with ~13M parameters for the multi-domain image translation task. Comprehensive experiments on translation performance in public MRI and CT datasets show the superior performance of the proposed framework over the existing approaches. Code will be available (https://github.com/yilmazkorkmaz1/I2I-Galip).
- Abstract(参考訳): ソースとターゲットドメインの異なる分布間の複雑なマッピングを複雑に学習する、ペア化された例が存在しないため、未ペア画像変換は難しい作業である。
このタスクで最もよく使われるアプローチの1つはCycleGANであり、各ドメインペアに対して新しいジェネレータ-識別器ネットワークのトレーニングを必要とする。
本稿では,イメージ・ツー・イメージ・ジェネレーティブ・アドバイザリ・CLIP (I2I-Galip) という画像から画像への変換フレームワークを提案する。
基礎モデルの事前学習中に収集した膨大な知識を生かして,多領域画像翻訳タスクに約13Mのパラメータを持つ単一軽量なジェネレータネットワークを利用する。
公開MRIおよびCTデータセットの翻訳性能に関する総合的な実験は、既存のアプローチよりも提案フレームワークの優れた性能を示す。
コードは利用可能になる(https://github.com/yilmazkorkmaz1/I2I-Galip)。
関連論文リスト
- Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Guided Image-to-Image Translation by Discriminator-Generator
Communication [71.86347329356244]
Image-to-image (I2I) 翻訳の目標は、ソースドメインからターゲットドメインに画像を転送することである。
本研究の主な分野は,GAN(Generative Adversarial Network)に基づくI2I翻訳の定式化である。
論文 参考訳(メタデータ) (2023-03-07T02:29:36Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - HYLDA: End-to-end Hybrid Learning Domain Adaptation for LiDAR Semantic
Segmentation [13.87939140266266]
完全ラベル付きソースデータセットと少数のラベルしか持たないターゲットデータセットを用いて,LiDARセマンティックセマンティックセマンティクスネットワークをトレーニングする問題に対処する。
我々は、新しい画像から画像への変換エンジンを開発し、それをLiDARセマンティックセマンティックセグメンテーションネットワークと組み合わせることで、HYLDAと呼ばれる統合ドメイン適応アーキテクチャを実現する。
論文 参考訳(メタデータ) (2022-01-14T18:13:09Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - SoloGAN: Multi-domain Multimodal Unpaired Image-to-Image Translation via
a Single Generative Adversarial Network [4.7344504314446345]
本稿では、複数のドメイン間の効率的なマルチモーダルI2I翻訳のためのフレキシブルで汎用的なSoloGANモデルを提案する。
既存の手法とは対照的に、SoloGANアルゴリズムは追加の補助分類器を備えた単一の射影判別器を使用し、すべてのドメインに対してエンコーダとジェネレータを共有する。
論文 参考訳(メタデータ) (2020-08-04T16:31:15Z) - GMM-UNIT: Unsupervised Multi-Domain and Multi-Modal Image-to-Image
Translation via Attribute Gaussian Mixture Modeling [66.50914391679375]
unsupervised image-to-image translation (UNIT) は、未経験の訓練画像を用いて、複数の視覚領域間のマッピングを学習することを目的としている。
最近の研究は、複数のドメインで顕著な成功を示しているが、それらは2つの主要な制限に悩まされている。
GMM-UNITという,空間にGMMを組み込むコンテンツ属性不整合表現に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-03-15T10:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。