論文の概要: Local Patches Meet Global Context: Scalable 3D Diffusion Priors for Computed Tomography Reconstruction
- arxiv url: http://arxiv.org/abs/2512.18161v1
- Date: Sat, 20 Dec 2025 00:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.213468
- Title: Local Patches Meet Global Context: Scalable 3D Diffusion Priors for Computed Tomography Reconstruction
- Title(参考訳): 局所パッチとグローバルコンテキスト:CT画像再構成のためのスケーラブルな3次元拡散
- Authors: Taewon Yang, Jason Hu, Jeffrey A. Fessler, Liyue Shen,
- Abstract要約: 拡散モデルは、医用画像再構成のような逆問題を解決するために活用できる強力な画像先行を学習する。
限られたデータから完全に3次元の拡散を学習できる新しい3次元パッチベース拡散モデルを提案する。
我々のアプローチは高品質な3D生成を可能にするだけでなく、高解像度の3D逆問題に対して、前例のないほど効率的で正確な解決策を提供する。
- 参考スコア(独自算出の注目度): 15.46391452264862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models learn strong image priors that can be leveraged to solve inverse problems like medical image reconstruction. However, for real-world applications such as 3D Computed Tomography (CT) imaging, directly training diffusion models on 3D data presents significant challenges due to the high computational demands of extensive GPU resources and large-scale datasets. Existing works mostly reuse 2D diffusion priors to address 3D inverse problems, but fail to fully realize and leverage the generative capacity of diffusion models for high-dimensional data. In this study, we propose a novel 3D patch-based diffusion model that can learn a fully 3D diffusion prior from limited data, enabling scalable generation of high-resolution 3D images. Our core idea is to learn the prior of 3D patches to achieve scalable efficiency, while coupling local and global information to guarantee high-quality 3D image generation, by modeling the joint distribution of position-aware 3D local patches and downsampled 3D volume as global context. Our approach not only enables high-quality 3D generation, but also offers an unprecedentedly efficient and accurate solution to high-resolution 3D inverse problems. Experiments on 3D CT reconstruction across multiple datasets show that our method outperforms state-of-the-art methods in both performance and efficiency, notably achieving high-resolution 3D reconstruction of $512 \times 512 \times 256$ ($\sim$20 mins).
- Abstract(参考訳): 拡散モデルは、医用画像再構成のような逆問題を解決するために活用できる強力な画像先行を学習する。
しかし、3D Computed Tomography (CT) イメージングのような現実世界のアプリケーションでは、3Dデータ上で拡散モデルを直接訓練することは、膨大なGPUリソースと大規模データセットの高い計算要求のために大きな課題となる。
既存の作業は、主に3次元逆問題に対処するために2次元拡散を再利用するが、高次元データに対する拡散モデルの生成能力を完全に実現し活用することができない。
本研究では,限られたデータから完全に3次元の拡散を学習し,高解像度3次元画像のスケーラブルな生成を可能にする,新しい3次元パッチベース拡散モデルを提案する。
我々の中核となる考え方は、位置認識型3Dローカルパッチの結合分布をモデル化し、3Dボリュームをグローバルコンテキストとして、局所的およびグローバルな情報を結合して高品質な3D画像生成を保証することであり、スケーラブルな3Dパッチの事前学習である。
我々のアプローチは高品質な3D生成を可能にするだけでなく、高解像度の3D逆問題に対して、前例のないほど効率的で正確な解決策を提供する。
複数のデータセットにまたがる3DCT再構成実験により,本手法は性能と効率の両面で最先端の手法より優れており,特に512 \times 512 \times 256$($\sim$20 mins)の高分解能な3D再構成を実現している。
関連論文リスト
- DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation [33.62074896816882]
DiffSplatは,大規模テキスト・画像拡散モデルを用いて3次元ガウススプラットを生成する新しい3次元生成フレームワークである。
従来の3D生成モデルと異なり、Webスケールの2D事前を効果的に活用しつつ、統一モデルにおける3D一貫性を維持している。
これらの格子上の正規拡散損失と合わせて、3Dレンダリング損失を導入し、任意のビューの3Dコヒーレンスを促進する。
論文 参考訳(メタデータ) (2025-01-28T07:38:59Z) - Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - Diffusion Models in 3D Vision: A Survey [18.805222552728225]
3Dビジョンはコンピュータビジョンにおいて重要な分野となり、自律運転、ロボット工学、拡張現実、医療画像などの幅広い応用に力を入れている。
本稿では,3次元オブジェクト生成,形状完備化,点雲再構成,シーン構築など,三次元視覚タスクに拡散モデルを用いる最先端の手法について概説する。
計算効率の向上,マルチモーダル融合の強化,大規模事前学習による3次元タスクの一般化の促進など,潜在的なソリューションについて議論する。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - DiffusionBlend: Learning 3D Image Prior through Position-aware Diffusion Score Blending for 3D Computed Tomography Reconstruction [12.04892150473192]
位置認識型3D-パッチ拡散スコアブレンディングによる3D画像の学習を可能にする新しいフレームワークを提案する。
我々のアルゴリズムは、従来の最先端手法よりも優れた、あるいは同等の計算効率を持つ。
論文 参考訳(メタデータ) (2024-06-14T17:47:50Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - Improving 3D Imaging with Pre-Trained Perpendicular 2D Diffusion Models [52.529394863331326]
本稿では,2つの垂直2次元拡散モデルを用いて3次元逆問題の解法を提案する。
MRI Z軸超解像, 圧縮センシングMRI, スパースCTなどの3次元医用画像再構成作業に有効である。
論文 参考訳(メタデータ) (2023-03-15T08:28:06Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。