論文の概要: Trans${^2}$-CBCT: A Dual-Transformer Framework for Sparse-View CBCT Reconstruction
- arxiv url: http://arxiv.org/abs/2506.17425v1
- Date: Fri, 20 Jun 2025 18:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.409222
- Title: Trans${^2}$-CBCT: A Dual-Transformer Framework for Sparse-View CBCT Reconstruction
- Title(参考訳): Trans${^2}$-CBCT:スパースビューCBCT再構成のためのデュアルトランスフォーマフレームワーク
- Authors: Minmin Yang, Huantao Ren, Senem Velipasalar,
- Abstract要約: コーンビームCT(CBCT)は、少数のX線プロジェクションビューしか使用していないため、放射線線量が少ないほど高速なスキャンが可能であるが、重度のアンダーサンプリングの結果、強いアーティファクトと空間的カバレッジが低下する。
まず、従来のUNet/ResNetエンコーダをハイブリッドCNN-TransformerモデルであるTransUNetに置き換える。
LUNA16 と ToothFairy の実験では、6 から 10 のビューで一貫した利得を示し,CNN-Transformer 特徴と特異なビュー CBCT 再構成のための点ベース幾何推論の有効性を検証した。
- 参考スコア(独自算出の注目度): 10.744510913722817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cone-beam computed tomography (CBCT) using only a few X-ray projection views enables faster scans with lower radiation dose, but the resulting severe under-sampling causes strong artifacts and poor spatial coverage. We address these challenges in a unified framework. First, we replace conventional UNet/ResNet encoders with TransUNet, a hybrid CNN-Transformer model. Convolutional layers capture local details, while self-attention layers enhance global context. We adapt TransUNet to CBCT by combining multi-scale features, querying view-specific features per 3D point, and adding a lightweight attenuation-prediction head. This yields Trans-CBCT, which surpasses prior baselines by 1.17 dB PSNR and 0.0163 SSIM on the LUNA16 dataset with six views. Second, we introduce a neighbor-aware Point Transformer to enforce volumetric coherence. This module uses 3D positional encoding and attention over k-nearest neighbors to improve spatial consistency. The resulting model, Trans$^2$-CBCT, provides an additional gain of 0.63 dB PSNR and 0.0117 SSIM. Experiments on LUNA16 and ToothFairy show consistent gains from six to ten views, validating the effectiveness of combining CNN-Transformer features with point-based geometry reasoning for sparse-view CBCT reconstruction.
- Abstract(参考訳): コーンビームCT(CBCT)は、少数のX線プロジェクションビューしか使用していないため、放射線線量が少ないほど高速なスキャンが可能であるが、重度のアンダーサンプリングの結果、強いアーティファクトと空間的カバレッジが低下する。
これらの課題を統一されたフレームワークで解決する。
まず,従来のUNet/ResNetエンコーダをハイブリッドCNN-TransformerモデルであるTransUNetに置き換える。
畳み込みレイヤはローカルの詳細をキャプチャし、セルフアテンションレイヤはグローバルなコンテキストを強化する。
我々は、TransUNetをCBCTに適応させ、3Dポイントごとにビュー固有の特徴をクエリし、軽量な減衰予測ヘッドを追加する。
これによりTrans-CBCTは以前のベースラインを1.17dBのPSNRと0.0163のSSIMで上回り、6ビューのLUNA16データセットとなる。
第二に、ボリュームコヒーレンスを強制する近隣のPoint Transformerを導入する。
このモジュールは、k-アネレスト近傍の3次元位置符号化と注意を使って空間整合性を改善する。
結果、Trans$^2$-CBCTは0.63dBのPSNRと0.0117のSSIMを加算する。
LUNA16 と ToothFairy の実験では、6 から 10 のビューで一貫した利得を示し,CNN-Transformer 特徴と特異なビュー CBCT 再構成のための点ベース幾何推論の有効性を検証した。
関連論文リスト
- How Learnable Grids Recover Fine Detail in Low Dimensions: A Neural Tangent Kernel Analysis of Multigrid Parametric Encodings [106.3726679697804]
フーリエ特徴符号化(FFE)とマルチグリッドパラメトリック符号化(MPE)の2つの手法を比較した。
MPEは低次元マッピングの標準と見なされるが、MPEはそれらを上回り、高解像度で詳細な表現を学習することが多い。
我々は,MPEが学習可能な埋め込みではなく,グリッド構造を通じてネットワークの性能を向上させることを証明した。
論文 参考訳(メタデータ) (2025-04-18T02:18:08Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Geometry-Aware Attenuation Learning for Sparse-View CBCT Reconstruction [53.93674177236367]
Cone Beam Computed Tomography (CBCT) は臨床画像撮影において重要な役割を担っている。
従来の方法では、高品質な3D CBCT画像の再構成には数百の2次元X線投影が必要である。
これにより、放射線線量を減らすため、スパースビューCBCT再構成への関心が高まっている。
本稿では,この問題を解決するために,新しい幾何対応エンコーダデコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T14:38:42Z) - Learning Deep Intensity Field for Extremely Sparse-View CBCT
Reconstruction [10.06715158736831]
Sparse-view cone-beam CT (CBCT) 再建は放射線線量削減と臨床応用のための重要な方向である。
従来のボクセルベースの生成方法は、CTを離散ボクセルとして表現する。
超高速視界から高画質CBCT再構成を行うための新しいDIF-Netを開発した。
論文 参考訳(メタデータ) (2023-03-12T14:54:22Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Toward Generating Synthetic CT Volumes using a 3D-Conditional Generative
Adversarial Network [1.5846249630722484]
雑音および/または画素近似からボクセル内の3次元CTスキャンを生成することができる条件付き生成逆ネットワーク(cGAN)アーキテクチャ。
条件付きcGANは3次元CTボリュームを生成するための抽出可能なアプローチであると考えている。
論文 参考訳(メタデータ) (2021-04-02T12:25:37Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。