論文の概要: Stable Optimization for Large Vision Model Based Deep Image Prior in
Cone-Beam CT Reconstruction
- arxiv url: http://arxiv.org/abs/2203.12476v2
- Date: Sun, 28 Jan 2024 13:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 01:18:05.006091
- Title: Stable Optimization for Large Vision Model Based Deep Image Prior in
Cone-Beam CT Reconstruction
- Title(参考訳): コーンビームCT画像再構成に先立つ大視野画像の安定的最適化
- Authors: Minghui Wu, Yangdi Xu, Yingying Xu, Guangwei Wu, Qingqing Chen,
Hongxiang Lin
- Abstract要約: LVM(Large Vision Model)は、最近医療画像のタスクにおいて大きな可能性を実証した。
Deep Image Prior(DIP)は、トレーニングされていないニューラルネットワークを効果的にガイドし、トレーニングデータなしで高品質のCBCT画像を生成する。
スパースビューCBCTのためのフォワードモデルフリーDIPモデルの安定最適化法を提案する。
- 参考スコア(独自算出の注目度): 6.558735319783205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Model (LVM) has recently demonstrated great potential for
medical imaging tasks, potentially enabling image enhancement for sparse-view
Cone-Beam Computed Tomography (CBCT), despite requiring a substantial amount of
data for training. Meanwhile, Deep Image Prior (DIP) effectively guides an
untrained neural network to generate high-quality CBCT images without any
training data. However, the original DIP method relies on a well-defined
forward model and a large-capacity backbone network, which is notoriously
difficult to converge. In this paper, we propose a stable optimization method
for the forward-model-free, LVM-based DIP model for sparse-view CBCT. Our
approach consists of two main characteristics: (1) multi-scale perceptual loss
(MSPL) which measures the similarity of perceptual features between the
reference and output images at multiple resolutions without the need for any
forward model, and (2) a reweighting mechanism that stabilizes the iteration
trajectory of MSPL. One shot optimization is used to simultaneously and stably
reweight MSPL and optimize LVM. We evaluate our approach on two publicly
available datasets: SPARE and Walnut. The results show significant improvements
in both image quality metrics and visualization that demonstrates reduced
streak artifacts. The source code is available upon request.
- Abstract(参考訳): 最近、LVM(Large Vision Model)は医療画像のタスクにおいて大きな可能性を示しており、訓練に大量のデータを必要とするにもかかわらず、スパースビューコーンビームCT(CBCT)の画像強調を可能にする可能性がある。
一方、Deep Image Prior(DIP)は、訓練されていないニューラルネットワークを効果的にガイドし、トレーニングデータなしで高品質のCBCT画像を生成する。
しかし、元のDIP法は、よく定義されたフォワードモデルと大容量バックボーンネットワークに依存しており、収束が難しいことが知られている。
本稿では,スパースビューCBCTのためのフォワードモデルフリーLVMベースDIPモデルの安定最適化手法を提案する。
提案手法は,(1)参照画像と出力画像の複数解像度における知覚特徴の類似性を測定するマルチスケール知覚損失(MSPL)と,(2)MSPLの反復軌道を安定化させる再重み付け機構からなる。
ワンショット最適化は、MSPLを安定的にリウェイトし、LVMを最適化するために使用される。
SPAREとWalnutの2つの公開データセットに対するアプローチを評価した。
その結果、画像品質メトリクスと視覚化の両方が大幅に改善され、ストレークアーティファクトの削減が示された。
ソースコードは要求に応じて入手できる。
関連論文リスト
- Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルで効果的なアプローチであるDEEMを提案する。
DEEMは、訓練可能なパラメータを少なくし、事前訓練データが少なく、ベースモデルのサイズを小さくし、幻覚を緩和するための強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - ModeTv2: GPU-accelerated Motion Decomposition Transformer for Pairwise Optimization in Medical Image Registration [6.217733993535475]
変形可能な画像登録は、疾患の診断と画像誘導の介入を支援する医療画像において重要な役割を担っている。
従来の反復的手法は遅いが、ディープラーニング(DL)はソリューションを加速するが、ユーザビリティと精度の課題に直面している。
本研究では,従来の手法に類似した優れたペアワイズ最適化(PO)を示す改良型モーショントランスフォーマー(ModeTv2)演算子を用いたピラミッドネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-25T08:09:22Z) - Deep Optimal Transport: A Practical Algorithm for Photo-realistic Image
Restoration [44.47246905244631]
事前学習したモデルの知覚的品質および/または平均二乗誤差(MSE)を制御できる画像復元アルゴリズムを提案する。
モデルによって復元された約1ダースの画像を考えると、新たな画像に対するモデルの知覚的品質と/またはMSEを、それ以上の訓練をすることなく大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-06-04T12:21:53Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Deep Learning for Material Decomposition in Photon-Counting CT [0.5801044612920815]
そこで本研究では,PCCTにおける材料分解のための新たな深層学習ソリューションを提案する。
提案手法は,最大推定値,変分法,および完全学習ネットワークよりも優れる。
論文 参考訳(メタデータ) (2022-08-05T19:05:16Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - A Two-step-training Deep Learning Framework for Real-time Computational
Imaging without Physics Priors [0.0]
本稿では,物理を前提としないリアルタイムな計算画像作成のための2段階学習用DL(TST-DL)フレームワークを提案する。
まず、モデルを直接学習するために、単一の完全接続層(FCL)をトレーニングする。
そして、このFCLを未訓練のU-Netアーキテクチャで固定固定し、第2ステップのトレーニングを行い、出力画像の忠実性を改善する。
論文 参考訳(メタデータ) (2020-01-10T15:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。