論文の概要: On the Utility of Foundation Models for Fast MRI: Vision-Language-Guided Image Reconstruction
- arxiv url: http://arxiv.org/abs/2511.19641v1
- Date: Mon, 24 Nov 2025 19:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.127239
- Title: On the Utility of Foundation Models for Fast MRI: Vision-Language-Guided Image Reconstruction
- Title(参考訳): 高速MRIのための基礎モデルの有用性について:視覚言語誘導画像再構成
- Authors: Ruimin Feng, Xingxin He, Ronald Mercer, Zachary Stewart, Fang Liu,
- Abstract要約: 本稿では,事前学習された視覚言語基盤モデルを用いた意味分布誘導型再構築フレームワークを提案する。
対照的な目的は、再構成された表現と対象の意味分布を一致させる。
膝と脳のデータセットの実験では、画像からのセマンティックな先行は微細な解剖学的構造を保ち、知覚の質が優れていることが示されている。
- 参考スコア(独自算出の注目度): 5.796028565806211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: To investigate whether a vision-language foundation model can enhance undersampled MRI reconstruction by providing high-level contextual information beyond conventional priors. Methods: We proposed a semantic distribution-guided reconstruction framework that uses a pre-trained vision-language foundation model to encode both the reconstructed image and auxiliary information into high-level semantic features. A contrastive objective aligns the reconstructed representation with the target semantic distribution, ensuring consistency with high-level perceptual cues. The proposed objective works with various deep learning-based reconstruction methods and can flexibly incorporate semantic priors from multimodal sources. To test the effectiveness of these semantic priors, we evaluated reconstruction results guided by priors derived from either image-only or image-language auxiliary information. Results: Experiments on knee and brain datasets demonstrate that semantic priors from images preserve fine anatomical structures and achieve superior perceptual quality, as reflected in lower LPIPS values, higher Tenengrad scores, and improved scores in the reader study, compared with conventional regularization. The image-language information further expands the semantic distribution and enables high-level control over reconstruction attributes. Across all evaluations, the contrastive objective consistently guided the reconstructed features toward the desired semantic distributions while maintaining data fidelity, demonstrating the effectiveness of the proposed optimization framework. Conclusion: The study highlights that vision-language foundation models can improve undersampled MRI reconstruction through semantic-space optimization.
- Abstract(参考訳): 目的:従来よりも高レベルな文脈情報を提供することで,視覚言語基盤モデルがMRIのアンサンプ化を促進できるかどうかを検討すること。
方法: 学習済みの視覚言語基盤モデルを用いて, 再構成画像と補助情報の両方を高レベルな意味的特徴にエンコードする意味分布誘導再構築フレームワークを提案する。
対照的な目的は、再構成された表現を対象の意味分布と整合させ、高レベルの知覚的手がかりとの整合性を確保することである。
提案手法は,様々な深層学習に基づく再構築手法を用いており,マルチモーダルソースからのセマンティックプリエントを柔軟に組み込むことができる。
これらの意味的先行情報の有効性を検証するため、画像のみまたは画像言語補助情報から導かれる先行情報により導かれる再構成結果を評価した。
結果: 膝と脳のデータセットを用いた実験では, 画像からのセマンティックな先行性は, より低いLPIPS値, 高いテンエングラートスコア, 従来の正規化と比較すると, より優れた知覚品質が得られることが示された。
画像言語情報はさらに意味分布を拡張し、再構成属性の高レベル制御を可能にする。
すべての評価において、コントラスト的目的は、データ忠実性を保ちながら、所望のセマンティックな分布に向けて再構成された特徴を一貫して導き、提案した最適化フレームワークの有効性を実証した。
結論:本研究は,視覚言語基盤モデルが意味空間最適化により,アンサンプされたMRI再構成を改善することを強調した。
関連論文リスト
- GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction [65.67001243986981]
我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。
MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
論文 参考訳(メタデータ) (2025-10-25T15:40:07Z) - RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。
本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。
報酬信号は、テキストの意味情報を合成画像と整合させるように設計されている。
論文 参考訳(メタデータ) (2025-03-20T01:51:05Z) - Optimized two-stage AI-based Neural Decoding for Enhanced Visual Stimulus Reconstruction from fMRI Data [2.0851013563386247]
本研究は、fMRI遅延空間表現を改善するための非線形ディープネットワークを提案し、次元性も同様に最適化する。
Natural Scenesデータセットの実験により、提案されたアーキテクチャは、最先端のモデルに関して、再構成された画像の構造的類似性を約2%改善した。
LDMのノイズ感度解析により,第1ステージの役割は,高い構造的類似性を有する刺激を予測するのに基本的であることが示された。
論文 参考訳(メタデータ) (2024-12-17T16:42:55Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - SSP-IR: Semantic and Structure Priors for Diffusion-based Realistic Image Restoration [20.873676111265656]
SSP-IRは、低画質の画像からセマンティックと構造をフル活用することを目的としている。
提案手法は,合成および実世界のデータセットにおいて,他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Stable Deep MRI Reconstruction using Generative Priors [13.400444194036101]
本稿では,参照等級画像のみを生成的設定でトレーニングした,新しいディープニューラルネットワークベース正規化器を提案する。
その結果,最先端のディープラーニング手法に匹敵する競争性能が示された。
論文 参考訳(メタデータ) (2022-10-25T08:34:29Z) - Federated Learning of Generative Image Priors for MRI Reconstruction [5.3963856146595095]
マルチインスティカルな取り組みは、画像データのクロスサイト共有中にプライバシー上のリスクが発生するにもかかわらず、ディープMRI再構成モデルのトレーニングを容易にする。
FedGIMP (FedGIMP) を用いた新しいMRI再構成法を提案する。
FedGIMPは、2段階のアプローチを利用する: 生成MRIのクロスサイト学習と、イメージングオペレーターの主題固有の注入である。
論文 参考訳(メタデータ) (2022-02-08T22:17:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。