論文の概要: DINO-BOLDNet: A DINOv3-Guided Multi-Slice Attention Network for T1-to-BOLD Generation
- arxiv url: http://arxiv.org/abs/2512.08337v1
- Date: Tue, 09 Dec 2025 08:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.872521
- Title: DINO-BOLDNet: A DINOv3-Guided Multi-Slice Attention Network for T1-to-BOLD Generation
- Title(参考訳): DINO-BOLDNet:T1-BOLD生成のためのDINOv3-Guided Multi-Slice Attention Network
- Authors: Jianwei Wang, Qing Wang, Menglan Ruan, Rongjun Ge, Chunfeng Yang, Yang Chen, Chunming Xie,
- Abstract要約: 本稿では,DINOv3誘導マルチスライスアテンションフレームワークであるDINO-BOLDNetを提案する。
凍結した自己管理型DINOv3エンコーダと軽量のトレーニング可能なデコーダを統合している。
DINO-BOLDNetはPSNRおよびMS-SSIMの条件付きGANベースラインを超えている。
- 参考スコア(独自算出の注目度): 12.160430137008042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating BOLD images from T1w images offers a promising solution for recovering missing BOLD information and enabling downstream tasks when BOLD images are corrupted or unavailable. Motivated by this, we propose DINO-BOLDNet, a DINOv3-guided multi-slice attention framework that integrates a frozen self-supervised DINOv3 encoder with a lightweight trainable decoder. The model uses DINOv3 to extract within-slice structural representations, and a separate slice-attention module to fuse contextual information across neighboring slices. A multi-scale generation decoder then restores fine-grained functional contrast, while a DINO-based perceptual loss encourages structural and textural consistency between predictions and ground-truth BOLD in the transformer feature space. Experiments on a clinical dataset of 248 subjects show that DINO-BOLDNet surpasses a conditional GAN baseline in both PSNR and MS-SSIM. To our knowledge, this is the first framework capable of generating mean BOLD images directly from T1w images, highlighting the potential of self-supervised transformer guidance for structural-to-functional mapping.
- Abstract(参考訳): T1w画像からBOLD画像を生成することで、行方不明のBOLD情報を復元し、BOLD画像が破損したり、利用できない場合に下流タスクを可能にする、有望なソリューションを提供する。
DINO-BOLDNetは,凍結した自己教師型DINOv3エンコーダと軽量なトレーニング可能なデコーダを統合した,DINOv3誘導型マルチスライスアテンションフレームワークである。
このモデルはDINOv3を使って内部スライス構造表現を抽出し、隣接するスライス間でコンテキスト情報を融合するための分離スライスアテンションモジュールを使用する。
マルチスケール・ジェネレーション・デコーダは微細な機能コントラストを復元する一方、DINOベースの知覚的損失はトランスフォーマー特徴空間における予測と接地構造BOLDの間の構造的およびテクスチャ的整合性を促進する。
DINO-BOLDNetはPSNRおよびMS-SSIMの条件付きGANベースラインを超えている。
我々の知る限り、これはT1w画像から直接平均BOLD画像を生成することができる最初のフレームワークであり、構造-機能マッピングのための自己教師型トランスフォーマーガイダンスの可能性を強調している。
関連論文リスト
- Prior-guided Hierarchical Harmonization Network for Efficient Image Dehazing [50.92820394852817]
画像復調のためのtextitPrior-textitguided textitHarmonization Network (PGH$2$Net) を提案する。
PGH$2$Netは、2つのモジュールタイプからなる効率的なエンコーダとデコーダを備えたUNetのようなアーキテクチャ上に構築されている。
論文 参考訳(メタデータ) (2025-03-03T03:36:30Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - Self-Supervised Generative-Contrastive Learning of Multi-Modal Euclidean Input for 3D Shape Latent Representations: A Dynamic Switching Approach [53.376029341079054]
本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
論文 参考訳(メタデータ) (2023-01-11T18:14:24Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Single Image Dehazing with An Independent Detail-Recovery Network [117.86146907611054]
個別のDetail Recovery Network (DRN) を用いた単一画像デハージング手法を提案する。
DRNは、それぞれのローカルブランチとグローバルブランチを通じて、デハズドイメージの詳細を復元することを目的としている。
本手法は, 定量的, 定性的に, 最先端の脱ハージング法より優れる。
論文 参考訳(メタデータ) (2021-09-22T02:49:43Z) - DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image
Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。
提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。
生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文 参考訳(メタデータ) (2020-11-05T08:57:15Z) - Generate High Resolution Images With Generative Variational Autoencoder [0.0]
本稿では,高解像度画像を生成する新しいニューラルネットワークを提案する。
エンコーダをそのまま使用しながら,VAEのデコーダを識別器に置き換える。
我々は、MNIST、LSUN、CelebAの3つの異なるデータセットでネットワークを評価した。
論文 参考訳(メタデータ) (2020-08-12T20:15:34Z) - Defending Adversarial Examples via DNN Bottleneck Reinforcement [20.08619981108837]
本稿では,敵対的攻撃に対するディープニューラルネットワーク(DNN)の脆弱性を軽減するための強化手法を提案する。
後者を維持しながら前者を補強することにより、逆らうか否かに関わらず、冗長な情報は、潜在表現から取り除かなければならない。
情報ボトルネックを強化するために,ネットワークの周波数ステアリングを改善するために,マルチスケールの低域目標とマルチスケールの高周波通信を導入する。
論文 参考訳(メタデータ) (2020-08-12T11:02:01Z) - Identity Enhanced Residual Image Denoising [61.75610647978973]
我々は、アイデンティティマッピングモジュールのチェーンと、画像の復号化のための残像アーキテクチャの残像からなる、完全な畳み込みネットワークモデルを学ぶ。
提案するネットワークは,従来の最先端・CNNアルゴリズムよりも極めて高い数値精度と画像品質を実現している。
論文 参考訳(メタデータ) (2020-04-26T04:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。