論文の概要: HAVIR: HierArchical Vision to Image Reconstruction using CLIP-Guided Versatile Diffusion
- arxiv url: http://arxiv.org/abs/2506.06035v1
- Date: Fri, 06 Jun 2025 12:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.472124
- Title: HAVIR: HierArchical Vision to Image Reconstruction using CLIP-Guided Versatile Diffusion
- Title(参考訳): HAVIR: CLIP-Guided Versatile Diffusion を用いた画像再構成のための階層的ビジョン
- Authors: Shiyi Zhang, Dong Liang, Hairong Zheng, Yihang Zhou,
- Abstract要約: 脳の活動から視覚情報を再構築することは神経科学とコンピュータビジョンのギャップを埋める。
HAVIRは複雑なシナリオにおいても視覚刺激の構造的特徴と意味的情報の両方を再構築する。
- 参考スコア(独自算出の注目度): 3.9136086794667597
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reconstructing visual information from brain activity bridges the gap between neuroscience and computer vision. Even though progress has been made in decoding images from fMRI using generative models, a challenge remains in accurately recovering highly complex visual stimuli. This difficulty stems from their elemental density and diversity, sophisticated spatial structures, and multifaceted semantic information. To address these challenges, we propose HAVIR that contains two adapters: (1) The AutoKL Adapter transforms fMRI voxels into a latent diffusion prior, capturing topological structures; (2) The CLIP Adapter converts the voxels to CLIP text and image embeddings, containing semantic information. These complementary representations are fused by Versatile Diffusion to generate the final reconstructed image. To extract the most essential semantic information from complex scenarios, the CLIP Adapter is trained with text captions describing the visual stimuli and their corresponding semantic images synthesized from these captions. The experimental results demonstrate that HAVIR effectively reconstructs both structural features and semantic information of visual stimuli even in complex scenarios, outperforming existing models.
- Abstract(参考訳): 脳の活動から視覚情報を再構築することは神経科学とコンピュータビジョンのギャップを埋める。
生成モデルを用いたfMRI画像の復号化は進展しているものの、高度に複雑な視覚刺激を正確に回復することは依然として課題である。
この難しさは、その要素密度と多様性、洗練された空間構造、多面的意味情報から生じる。
これらの課題に対処するため,(1) AutoKLアダプタはfMRIボクセルを遅延拡散に変換し,トポロジカル構造をキャプチャする; (2) CLIPアダプタはボクセルをCLIPテキストと画像埋め込みに変換し,セマンティック情報を含む2つのアダプタを含むHAVIRを提案する。
これらの相補表現はVersatile Diffusionによって融合され、最終的な再構成画像を生成する。
複雑なシナリオから最も重要なセマンティック情報を抽出するために、CLIPアダプタは、これらのキャプションから合成された視覚刺激とその対応するセマンティックイメージを記述するテキストキャプションで訓練される。
実験結果から,HAVIRは複雑なシナリオにおいても視覚刺激の構造的特徴と意味的情報の両方を効果的に再構築し,既存モデルより優れていることが示された。
関連論文リスト
- Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。
Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。
我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文 参考訳(メタデータ) (2024-09-18T16:19:57Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [8.299415606889024]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、fMRIからデコードされたVQ-VAE潜在表現とCLIPテキスト埋め込みが、安定拡散のイメージ・ツー・イメージのプロセスに置かれる。
ステージ2では、fMRIからデコードされた低レベルCLIP視覚特徴を監視情報として利用する。
論文 参考訳(メタデータ) (2023-03-24T16:41:42Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Facial Image Reconstruction from Functional Magnetic Resonance Imaging
via GAN Inversion with Improved Attribute Consistency [5.705640492618758]
我々はfMRIデータから顔画像を再構成する新しい枠組みを提案する。
提案手法は,(1)fMRIデータから明瞭な顔画像の再構成,(2)意味的特徴の一貫性の維持という2つの目標を達成する。
論文 参考訳(メタデータ) (2022-07-03T11:18:35Z) - Reconstructing Perceptive Images from Brain Activity by Shape-Semantic
GAN [16.169414324390218]
fMRI記録からの画像の再構成は神経科学の吸収研究領域である。
脳内の視覚的エンコーディングは非常に複雑で、完全には明らかになっていない。
視覚的特徴が大脳皮質で階層的に表現されるという理論に着想を得て,複雑な視覚信号を多段階成分に分解することを提案する。
論文 参考訳(メタデータ) (2021-01-28T16:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。