論文の概要: Render-FM: A Foundation Model for Real-time Photorealistic Volumetric Rendering
- arxiv url: http://arxiv.org/abs/2505.17338v1
- Date: Thu, 22 May 2025 23:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.728927
- Title: Render-FM: A Foundation Model for Real-time Photorealistic Volumetric Rendering
- Title(参考訳): Render-FM:リアルタイムフォトリアリスティックボリュームレンダリングの基礎モデル
- Authors: Zhongpai Gao, Meng Zheng, Benjamin Planche, Anwesa Choudhuri, Terrence Chen, Ziyan Wu,
- Abstract要約: 我々は,CTスキャンの直接リアルタイムレンダリングのための新しい基礎モデルRender-FMを提案する。
本手法は様々な臨床CTデータにまたがって高品質でリアルタイムなインタラクティブな3D可視化を実現する。
実験により、Render-FMは特殊スキャン法に匹敵する視覚的忠実度を達成できることが示された。
- 参考スコア(独自算出の注目度): 28.764513004699676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Volumetric rendering of Computed Tomography (CT) scans is crucial for visualizing complex 3D anatomical structures in medical imaging. Current high-fidelity approaches, especially neural rendering techniques, require time-consuming per-scene optimization, limiting clinical applicability due to computational demands and poor generalizability. We propose Render-FM, a novel foundation model for direct, real-time volumetric rendering of CT scans. Render-FM employs an encoder-decoder architecture that directly regresses 6D Gaussian Splatting (6DGS) parameters from CT volumes, eliminating per-scan optimization through large-scale pre-training on diverse medical data. By integrating robust feature extraction with the expressive power of 6DGS, our approach efficiently generates high-quality, real-time interactive 3D visualizations across diverse clinical CT data. Experiments demonstrate that Render-FM achieves visual fidelity comparable or superior to specialized per-scan methods while drastically reducing preparation time from nearly an hour to seconds for a single inference step. This advancement enables seamless integration into real-time surgical planning and diagnostic workflows. The project page is: https://gaozhongpai.github.io/renderfm/.
- Abstract(参考訳): 医用画像の複雑な3次元解剖構造を可視化するためにCTスキャンのボリュームレンダリングが重要である。
現在の高忠実性アプローチ、特にニューラルレンダリング技術では、シーンごとの最適化に時間を要するため、計算要求による臨床応用性が制限され、一般化性が低下している。
我々は,CTスキャンの直接,リアルタイムなボリュームレンダリングのための新しい基礎モデルRender-FMを提案する。
Render-FMは、6D Gaussian Splatting (6DGS)パラメータを直接CTボリュームから退避させるエンコーダ・デコーダアーキテクチャを採用しており、多様な医療データに対する大規模な事前トレーニングを通じてスキャンごとの最適化をなくしている。
6DGSの表現力に頑健な特徴抽出を組み込むことで,多種多様な臨床CTデータにまたがる高品質でリアルタイムな3D可視化を効率よく実現する。
実験により、Render-FMは特定のスキャンごとの手法に比べて視覚的忠実度や優れており、単一の推論ステップで1時間から数秒近く準備時間を劇的に短縮することを示した。
この進歩により、リアルタイムの手術計画と診断ワークフローへのシームレスな統合が可能になる。
プロジェクトページは以下の通り。
関連論文リスト
- EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - A Fast, Scalable, and Robust Deep Learning-based Iterative Reconstruction Framework for Accelerated Industrial Cone-beam X-ray Computed Tomography [5.104810959579395]
コーンビームX線CT(XCT)と大型検出器とそれに対応する大規模3次元再構成は,様々な産業における材料や部品のミクロンスケールのキャラクタリゼーションにおいて重要な役割を担っている。
本稿では, 自動正規化パラメータ選択を伴う先行モデルとして, アーティファクト縮小学習CNNを組み込んだ, ディープニューラルネットワークに基づく反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-21T19:34:01Z) - TomoGRAF: A Robust and Generalizable Reconstruction Network for Single-View Computed Tomography [3.1209855614927275]
従来の解析的・定性的なCT再構成アルゴリズムは数百の角データサンプリングを必要とする。
我々は,高品質な3Dボリュームを再構成するために,ユニークなX線輸送物理を取り入れた新しいTtomoGRAFフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-12T20:07:59Z) - Multi-Layer Gaussian Splatting for Immersive Anatomy Visualization [1.0580610673031074]
医用画像の可視化において、CTスキャンのような体積医学データのパストレースは、生命に似た可視化を生成する。
本稿では,CTスキャンの高速かつ静的な中間表現を実現するために,GSを用いた新しい手法を提案する。
本手法は,対象ハードウェアに品質を調整可能な解剖学的構造を保ちながら,インタラクティブなフレームレートを実現する。
論文 参考訳(メタデータ) (2024-10-22T12:56:58Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - Intraoperative 2D/3D Image Registration via Differentiable X-ray Rendering [5.617649111108429]
DiffPoseは、患者固有のシミュレーションと微分可能な物理ベースのレンダリングを利用して、手動でラベル付けされたデータに頼ることなく正確な2D/3D登録を実現する自己教師型アプローチである。
DiffPoseは手術用データセット全体の術速でサブミリ精度を達成し、既存の教師なしの手法を桁違いに改善し、教師付きベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-12-11T13:05:54Z) - Geometry-Aware Attenuation Learning for Sparse-View CBCT Reconstruction [53.93674177236367]
Cone Beam Computed Tomography (CBCT) は臨床画像撮影において重要な役割を担っている。
従来の方法では、高品質な3D CBCT画像の再構成には数百の2次元X線投影が必要である。
これにより、放射線線量を減らすため、スパースビューCBCT再構成への関心が高まっている。
本稿では,この問題を解決するために,新しい幾何対応エンコーダデコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T14:38:42Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。