論文の概要: Pixel Perfect MegaMed: A Megapixel-Scale Vision-Language Foundation Model for Generating High Resolution Medical Images
- arxiv url: http://arxiv.org/abs/2507.12698v1
- Date: Thu, 17 Jul 2025 00:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.307086
- Title: Pixel Perfect MegaMed: A Megapixel-Scale Vision-Language Foundation Model for Generating High Resolution Medical Images
- Title(参考訳): Pixel Perfect MegaMed:高解像度医用画像生成のためのメガピクセルスケールビジョンランゲージ基礎モデル
- Authors: Zahra TehraniNasab, Amar Kumar, Tal Arbel,
- Abstract要約: 我々は1024×1024の解像度で画像を合成する最初のビジョン言語基盤モデルであるPixel Perfect MegaMedを紹介する。
超高解像度医用画像生成に特化して設計されたマルチスケールトランスフォーマーアーキテクチャをデプロイする。
Pixel Perfect MegaMedは、医療用語や画像のモダリティに合わせた視覚言語アライメント技術を活用することで、テキスト記述と前例のない解像度レベルでの視覚表現のギャップを埋める。
- 参考スコア(独自算出の注目度): 0.8397730500554048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image synthesis presents unique challenges due to the inherent complexity and high-resolution details required in clinical contexts. Traditional generative architectures such as Generative Adversarial Networks (GANs) or Variational Auto Encoder (VAEs) have shown great promise for high-resolution image generation but struggle with preserving fine-grained details that are key for accurate diagnosis. To address this issue, we introduce Pixel Perfect MegaMed, the first vision-language foundation model to synthesize images at resolutions of 1024x1024. Our method deploys a multi-scale transformer architecture designed specifically for ultra-high resolution medical image generation, enabling the preservation of both global anatomical context and local image-level details. By leveraging vision-language alignment techniques tailored to medical terminology and imaging modalities, Pixel Perfect MegaMed bridges the gap between textual descriptions and visual representations at unprecedented resolution levels. We apply our model to the CheXpert dataset and demonstrate its ability to generate clinically faithful chest X-rays from text prompts. Beyond visual quality, these high-resolution synthetic images prove valuable for downstream tasks such as classification, showing measurable performance gains when used for data augmentation, particularly in low-data regimes. Our code is accessible through the project website - https://tehraninasab.github.io/pixelperfect-megamed.
- Abstract(参考訳): 医用画像合成は、臨床の文脈で必要とされる複雑さと高解像度の細部が原因で、ユニークな課題を呈する。
GAN(Generative Adversarial Networks)やVAE(Variational Auto Encoder)のような従来の生成アーキテクチャは、高解像度の画像生成には大きな可能性を秘めているが、正確な診断の鍵となる細かな詳細を保存するのに苦労している。
この問題に対処するため,Pixel Perfect MegaMedを紹介した。
超高解像度医用画像生成に特化して設計されたマルチスケールトランスフォーマーアーキテクチャをデプロイし,グローバルな解剖学的文脈と局所的な画像レベルでの保存を可能にする。
Pixel Perfect MegaMedは、医療用語や画像のモダリティに合わせた視覚言語アライメント技術を活用することで、テキスト記述と前例のない解像度レベルでの視覚表現のギャップを埋める。
このモデルをCheXpertデータセットに適用し,テキストプロンプトから臨床的に忠実な胸部X線を生成する能力を実証した。
これらの高解像度合成画像は、視覚的品質以外にも、分類などの下流タスクには有用であることが証明され、特に低データレシエーションにおいて、データ拡張に使用される場合、測定可能なパフォーマンス向上を示す。
私たちのコードはプロジェクトのWebサイト(https://tehraninasab.github.io/pixelperfect-megamed)からアクセスできます。
関連論文リスト
- MedIL: Implicit Latent Spaces for Generating Heterogeneous Medical Images at Arbitrary Resolutions [2.2427832125073732]
MedILは、異質なサイズと解像度で医療画像をエンコードするために開発された、一級のオートエンコーダである。
我々は,MedILが大規模マルチサイト・マルチレゾリューションデータセットに対して臨床的に関連性のある特徴をいかに圧縮し,保存するかを示す。
論文 参考訳(メタデータ) (2025-04-12T19:52:56Z) - A Unified Model for Compressed Sensing MRI Across Undersampling Patterns [69.19631302047569]
様々な計測アンサンプパターンと画像解像度に頑健な統合MRI再構成モデルを提案する。
我々のモデルは、拡散法よりも600$times$高速な推論で、最先端CNN(End-to-End VarNet)の4dBでSSIMを11%改善し、PSNRを4dB改善する。
論文 参考訳(メタデータ) (2024-10-05T20:03:57Z) - TransResNet: Integrating the Strengths of ViTs and CNNs for High Resolution Medical Image Segmentation via Feature Grafting [6.987177704136503]
医用画像領域で高解像度画像が好ましいのは、基礎となる方法の診断能力を大幅に向上させるためである。
医用画像セグメンテーションのための既存のディープラーニング技術のほとんどは、空間次元が小さい入力画像に最適化されており、高解像度画像では不十分である。
我々はTransResNetという並列処理アーキテクチャを提案し、TransformerとCNNを並列的に組み合わせ、マルチ解像度画像から特徴を独立して抽出する。
論文 参考訳(メタデータ) (2024-10-01T18:22:34Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Fine-tuned Generative Adversarial Network-based Model for Medical Image Super-Resolution [2.647302105102753]
The Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN) is a practical model for recovery HR images from real-world LR images。
実世界の画像劣化をシミュレートするReal-ESRGANの高次劣化モデルを用いる。
提案モデルでは,Real-ESRGANモデルに比べて知覚品質が優れ,細部を効果的に保存し,より現実的なテクスチャで画像を生成する。
論文 参考訳(メタデータ) (2022-11-01T16:48:04Z) - Histopathology DatasetGAN: Synthesizing Large-Resolution Histopathology
Datasets [0.0]
病理組織学的データセットGAN(HDGAN)は、画像の生成と分割のためのフレームワークであり、大きな解像度の病理組織像によく対応している。
生成したバックボーンの更新,ジェネレータからの遅延特徴の選択的抽出,メモリマップされた配列への切り替えなど,オリジナルのフレームワークからいくつかの適応を行う。
血栓性微小血管症における高分解能タイルデータセット上でHDGANを評価し,高分解能画像アノテーション生成タスクにおいて高い性能を示した。
論文 参考訳(メタデータ) (2022-07-06T14:33:50Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - Multi-Texture GAN: Exploring the Multi-Scale Texture Translation for
Brain MR Images [1.9163481966968943]
既存のアルゴリズムのかなりの割合は、ターゲットスキャナーからテクスチャの詳細を明示的に利用し保存することはできない。
本論文では,再構成イメージをより詳細に強調するために,マルチスケールテクスチャ転送の設計を行う。
本手法は,最先端手法において,プロトコール間あるいはスカンナ間翻訳において優れた結果が得られる。
論文 参考訳(メタデータ) (2021-02-14T19:14:06Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - SAFRON: Stitching Across the Frontier for Generating Colorectal Cancer
Histology Images [2.486942181212742]
合成画像は、データの限られた可用性という文脈でディープラーニングアルゴリズムの開発と評価に使用することができる。
本研究では,現実的で高解像度な組織画像タイルを構築するための新しいSAFRONフレームワークを提案する。
提案手法は,比較的小さな画像パッチでトレーニングした後,任意の大きさのリアルな画像タイルを生成することができることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:47:00Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。