論文の概要: X-LRM: X-ray Large Reconstruction Model for Extremely Sparse-View Computed Tomography Recovery in One Second
- arxiv url: http://arxiv.org/abs/2503.06382v1
- Date: Sun, 09 Mar 2025 01:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:15.672860
- Title: X-LRM: X-ray Large Reconstruction Model for Extremely Sparse-View Computed Tomography Recovery in One Second
- Title(参考訳): X-LRM:X線大規模再構成モデルによる1秒間極小視線CT像の復元
- Authors: Guofeng Zhang, Ruyi Zha, Hao He, Yixun Liang, Alan Yuille, Hongdong Li, Yuanhao Cai,
- Abstract要約: スパースビュー3次元CT再構成は, 限られた2次元X線投影から構造を復元することを目的としている。
既存のフィードフォワード手法は、CNNベースのアーキテクチャの限られた能力と大規模なトレーニングデータセットの不足によって制約される。
X線大画像再構成モデル(X-LRM)を提案する。
- 参考スコア(独自算出の注目度): 52.11676689269379
- License:
- Abstract: Sparse-view 3D CT reconstruction aims to recover volumetric structures from a limited number of 2D X-ray projections. Existing feedforward methods are constrained by the limited capacity of CNN-based architectures and the scarcity of large-scale training datasets. In this paper, we propose an X-ray Large Reconstruction Model (X-LRM) for extremely sparse-view (<10 views) CT reconstruction. X-LRM consists of two key components: X-former and X-triplane. Our X-former can handle an arbitrary number of input views using an MLP-based image tokenizer and a Transformer-based encoder. The output tokens are then upsampled into our X-triplane representation, which models the 3D radiodensity as an implicit neural field. To support the training of X-LRM, we introduce Torso-16K, a large-scale dataset comprising over 16K volume-projection pairs of various torso organs. Extensive experiments demonstrate that X-LRM outperforms the state-of-the-art method by 1.5 dB and achieves 27x faster speed and better flexibility. Furthermore, the downstream evaluation of lung segmentation tasks also suggests the practical value of our approach. Our code, pre-trained models, and dataset will be released at https://github.com/caiyuanhao1998/X-LRM
- Abstract(参考訳): スパースビュー3次元CT再構成は, 限られた2次元X線投影から体積構造を復元することを目的としている。
既存のフィードフォワード手法は、CNNベースのアーキテクチャの限られた能力と大規模なトレーニングデータセットの不足によって制約される。
本稿では,X線大再構成モデル(X-LRM)を提案する。
X-LRMは、X-formerとX-triplaneの2つの重要なコンポーネントから構成される。
我々のX-formerは、MLPベースの画像トークン化器とTransformerベースのエンコーダを使って任意の数の入力ビューを処理できる。
出力トークンはX-三面体表現にアップサンプリングされ、3次元の放射密度を暗黙のニューラルネットワークとしてモデル化する。
X-LRMのトレーニングを支援するために,様々な胴体器官の16K体積対からなる大規模データセットTorso-16Kを紹介する。
実験により、X-LRMは1.5dBで最先端の手法より優れ、速度が27倍速く、柔軟性も向上した。
さらに,肺分画課題の下流部評価も,本手法の実用的価値を示唆している。
我々のコード、事前訓練されたモデル、データセットはhttps://github.com/caiyuanhao1998/X-LRMで公開される。
関連論文リスト
- Fan-Beam CT Reconstruction for Unaligned Sparse-View X-ray Baggage Dataset [0.0]
不整合多視点X線バッグデータを用いたキャリブレーションと再構成手法を提案する。
提案手法は,多スペクトル神経減衰場再構成とLinear pushbroom (LPB) カメラモデルを用いたポーズ最適化を組み合わせたものである。
論文 参考訳(メタデータ) (2024-12-04T05:16:54Z) - Differentiable Voxel-based X-ray Rendering Improves Sparse-View 3D CBCT Reconstruction [4.941613865666241]
本稿では, Cone-Beam Computed Tomography (CBCT) の自己教師型フレームワークであるDiffVoxについて紹介する。
その結果,高忠実度3D CBCT量を少ないX線から再構成し,電離放射線曝露を低減し,診断の有用性を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-28T15:49:08Z) - SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - R$^2$-Gaussian: Rectifying Radiative Gaussian Splatting for Tomographic Reconstruction [53.19869886963333]
3次元ガウススプラッティング(3DGS)は画像のレンダリングと表面再構成において有望な結果を示した。
本稿では,Sparse-viewトモグラフィ再構成のための3DGSベースのフレームワークであるR2$-Gaussianを紹介する。
論文 参考訳(メタデータ) (2024-05-31T08:39:02Z) - Pre-training on High Definition X-ray Images: An Experimental Study [19.46094537296955]
大規模データセット上で,X線を用いた事前学習基礎ビジョンモデルとして,最初の高精細(1280$times$1280)を提案する。
我々のモデルはマスク処理後にトークンを(高いレートで)入力として利用するマスク付きオートエンコーダフレームワークに従っている。
我々は,X線レポート生成と疾患認識を含む2つの下流課題に対するモデルの有効性を検証した。
論文 参考訳(メタデータ) (2024-04-27T14:29:53Z) - Radiative Gaussian Splatting for Efficient X-ray Novel View Synthesis [88.86777314004044]
我々は,X線ノベルビュー可視化のための3次元ガウシアンスプラッティングに基づくフレームワーク,すなわちX-ガウシアンを提案する。
実験の結果,X-Gaussianは6.5dBの最先端手法より優れており,トレーニング時間は15%未満であり,推論速度は73倍であることがわかった。
論文 参考訳(メタデータ) (2024-03-07T00:12:08Z) - Structure-Aware Sparse-View X-ray 3D Reconstruction [26.91084106735878]
スパースビューX線3次元再構成のための構造対応X線ニューラルラジオ密度場(SAX-NeRF)を提案する。
Linefomerは、X線の各線分内の依存関係をモデル化することで、3D空間内のオブジェクトの内部構造をキャプチャする。
X3Dの実験では、SAX-NeRFは、新しいビュー合成とCT再構成において、従来のNeRF法を12.56と2.49dBで上回っている。
論文 参考訳(メタデータ) (2023-11-18T03:39:02Z) - LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-08T00:03:52Z) - Geometry-Aware Attenuation Learning for Sparse-View CBCT Reconstruction [53.93674177236367]
Cone Beam Computed Tomography (CBCT) は臨床画像撮影において重要な役割を担っている。
従来の方法では、高品質な3D CBCT画像の再構成には数百の2次元X線投影が必要である。
これにより、放射線線量を減らすため、スパースビューCBCT再構成への関心が高まっている。
本稿では,この問題を解決するために,新しい幾何対応エンコーダデコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T14:38:42Z) - Self-Supervised 2D/3D Registration for X-Ray to CT Image Fusion [10.040271638205382]
シミュレーショントレーニングと教師なし特徴と画素空間領域適応を組み合わせた自己教師付き2D/3D登録フレームワークを提案する。
本フレームワークは, 実X線画像における90.1%の成功率で, 1.83$pm$1.16 mmの登録精度を達成している。
論文 参考訳(メタデータ) (2022-10-14T08:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。