論文の概要: All-in-One Medical Image Restoration with Latent Diffusion-Enhanced Vector-Quantized Codebook Prior
- arxiv url: http://arxiv.org/abs/2507.19874v1
- Date: Sat, 26 Jul 2025 09:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.360768
- Title: All-in-One Medical Image Restoration with Latent Diffusion-Enhanced Vector-Quantized Codebook Prior
- Title(参考訳): 遅延拡散増強ベクトル量子化コードブックによるオールインワン医用画像復元
- Authors: Haowei Chen, Zhiwen Yang, Haotian Hou, Hui Zhang, Bingzheng Wei, Gang Zhou, Yan Xu,
- Abstract要約: オールインワン医療画像復元(MedIR)は、統一モデルを用いて複数のMedIRタスクに対処することを目的としている。
DiffCodeは、遅延拡散強化ベクター量子化コードブックを利用する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 7.105567318325672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: All-in-one medical image restoration (MedIR) aims to address multiple MedIR tasks using a unified model, concurrently recovering various high-quality (HQ) medical images (e.g., MRI, CT, and PET) from low-quality (LQ) counterparts. However, all-in-one MedIR presents significant challenges due to the heterogeneity across different tasks. Each task involves distinct degradations, leading to diverse information losses in LQ images. Existing methods struggle to handle these diverse information losses associated with different tasks. To address these challenges, we propose a latent diffusion-enhanced vector-quantized codebook prior and develop \textbf{DiffCode}, a novel framework leveraging this prior for all-in-one MedIR. Specifically, to compensate for diverse information losses associated with different tasks, DiffCode constructs a task-adaptive codebook bank to integrate task-specific HQ prior features across tasks, capturing a comprehensive prior. Furthermore, to enhance prior retrieval from the codebook bank, DiffCode introduces a latent diffusion strategy that utilizes the diffusion model's powerful mapping capabilities to iteratively refine the latent feature distribution, estimating more accurate HQ prior features during restoration. With the help of the task-adaptive codebook bank and latent diffusion strategy, DiffCode achieves superior performance in both quantitative metrics and visual quality across three MedIR tasks: MRI super-resolution, CT denoising, and PET synthesis.
- Abstract(参考訳): オールインワン医療画像復元(MedIR)は,低品質(LQ)の医療画像(例えば,MRI,CT,PET)を同時に回収し,統一モデルを用いて複数のMedIRタスクに対処することを目的としている。
しかしながら、オールインワンのMedIRは、異なるタスク間の不均一性のために重大な課題を提起している。
各タスクは異なる劣化を伴い、LQ画像に様々な情報損失をもたらす。
既存の手法は、異なるタスクに関連するこれらの多様な情報損失を処理するのに苦労する。
これらの課題に対処するため、我々は遅延拡散強化ベクトル量子化符号ブックを事前に提案し、これをオールインワンMedIRに活用する新しいフレームワークである「textbf{DiffCode}」を開発した。
具体的には、さまざまなタスクに関連するさまざまな情報損失を補うために、DiffCodeはタスク固有のHQ以前の機能をタスク間で統合し、包括的な事前情報をキャプチャするタスク適応型コードブックバンクを構築している。
さらに、コードブックバンクからの事前検索を強化するため、DiffCodeは拡散モデルの強力なマッピング機能を利用して遅延特徴分布を反復的に洗練し、復元中により正確なHQ前の特徴を推定する潜時拡散戦略を導入した。
タスク適応型コードブックバンクと潜時拡散戦略の助けを借りて、DiffCodeは3つのMedIRタスク(MRI超解像、CTデノイング、PET合成)で定量的な測定値と視覚的品質の両方において優れたパフォーマンスを達成している。
関連論文リスト
- Multi-Scale Target-Aware Representation Learning for Fundus Image Enhancement [11.652205644265893]
高品質の眼底画像は、臨床検診や眼科疾患の診断に欠かせない解剖学的情報を提供する。
近年は、眼底画像の強化が有望な進展をみせている。
本稿では,効率的なファンドス画像強調のためのMTRL-FIE(Multi-scale target-aware representation learning framework)を提案する。
論文 参考訳(メタデータ) (2025-05-03T14:25:48Z) - UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。
本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。
本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:06:48Z) - KA$^2$ER: Knowledge Adaptive Amalgamation of ExpeRts for Medical Images Segmentation [5.807887214293438]
本稿では,多元的基礎モデルを学習し,複数のエキスパートモデルの協調的な目標に対処することを目的としたアダプティブ・アマルガメーション・ナレッジ・フレームワークを提案する。
特に、まず、各タスクに対してnnUNetベースのエキスパートモデルをトレーニングし、トレーニング済みのSwinUNTERをターゲット基盤モデルとして再利用する。
隠蔽層内の階層的アテンション機構は、すべての専門家の隠蔽層の特徴知識にターゲットモデルの適応的なマージを実現するように設計されている。
論文 参考訳(メタデータ) (2024-10-28T14:49:17Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - All-In-One Medical Image Restoration via Task-Adaptive Routing [15.251572254628778]
我々は、単一のユニバーサルモデルで複数の異なるMedIRタスクに対処することを目的とした、オールインワンの医療画像復元の課題に焦点を当てた。
本稿では,タスク適応型ルーティング戦略を提案する。
提案するtextbfAll-in-one textbfMedical textbfImage textbfRestoration (textbfAMIR) ネットワークは、3つのMedIRタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-30T07:34:05Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical
Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。
本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2023-03-20T06:26:49Z) - Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。
デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文 参考訳(メタデータ) (2023-02-25T12:12:22Z) - Multimodal-Boost: Multimodal Medical Image Super-Resolution using
Multi-Attention Network with Wavelet Transform [5.416279158834623]
対応する画像分解能の喪失は、医用画像診断の全体的な性能を低下させる。
ディープラーニングベースのシングルイメージスーパーレゾリューション(SISR)アルゴリズムは、全体的な診断フレームワークに革命をもたらした。
本研究は,低周波データから高頻度情報を学習する深層マルチアテンションモジュールを用いたGAN(Generative Adversarial Network)を提案する。
論文 参考訳(メタデータ) (2021-10-22T10:13:46Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。