論文の概要: UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion
Model from Human Brain Activity
- arxiv url: http://arxiv.org/abs/2308.07428v1
- Date: Mon, 14 Aug 2023 19:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 15:00:44.011271
- Title: UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion
Model from Human Brain Activity
- Title(参考訳): unibrain:ヒト脳活動からの1つの拡散モデルにおける画像再構成とキャプションの統一
- Authors: Weijian Mai, Zhijun Zhang
- Abstract要約: 人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。
我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。
UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
- 参考スコア(独自算出の注目度): 2.666777614876322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image reconstruction and captioning from brain activity evoked by visual
stimuli allow researchers to further understand the connection between the
human brain and the visual perception system. While deep generative models have
recently been employed in this field, reconstructing realistic captions and
images with both low-level details and high semantic fidelity is still a
challenging problem. In this work, we propose UniBrain: Unify Image
Reconstruction and Captioning All in One Diffusion Model from Human Brain
Activity. For the first time, we unify image reconstruction and captioning from
visual-evoked functional magnetic resonance imaging (fMRI) through a latent
diffusion model termed Versatile Diffusion. Specifically, we transform fMRI
voxels into text and image latent for low-level information and guide the
backward diffusion process through fMRI-based image and text conditions derived
from CLIP to generate realistic captions and images. UniBrain outperforms
current methods both qualitatively and quantitatively in terms of image
reconstruction and reports image captioning results for the first time on the
Natural Scenes Dataset (NSD) dataset. Moreover, the ablation experiments and
functional region-of-interest (ROI) analysis further exhibit the superiority of
UniBrain and provide comprehensive insight for visual-evoked brain decoding.
- Abstract(参考訳): 視覚刺激によって誘発される脳活動からの画像再構成とキャプションにより、研究者は人間の脳と視覚知覚システムとの関係をさらに理解することができる。
近年、深層生成モデルが採用されているが、低レベルな細部と高い意味的忠実度を持つリアルなキャプションや画像の再構築は依然として難しい課題である。
本研究では,UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion Model from Human Brain Activityを提案する。
視覚誘発機能磁気共鳴画像(fmri)から画像再構成とキャプションのキャプションを,汎用拡散と呼ばれる潜在拡散モデルを通じて初めて統一した。
具体的には,低レベル情報のためのfmriボクセルをテキストに変換し,クリップから派生したfmriベースの画像とテキスト条件を通じて後方拡散過程をガイドし,現実的なキャプションや画像を生成する。
UniBrainは、画像再構成における現在の手法を質的にも定量的にも上回り、Natural Scenes Dataset (NSD)データセットで初めて画像キャプションの結果を報告する。
さらに、アブレーション実験と機能的関心領域(ROI)分析は、UniBrainの優位性をさらに示し、視覚誘発脳復号のための包括的な洞察を提供する。
関連論文リスト
- Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。
Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。
我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文 参考訳(メタデータ) (2024-09-18T16:19:57Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - Psychometry: An Omnifit Model for Image Reconstruction from Human Brain Activity [60.983327742457995]
人間の脳活動から見るイメージを再構築することで、人間とコンピュータのビジョンをBrain-Computer Interfaceを通して橋渡しする。
異なる被験者から得られた機能的磁気共鳴イメージング(fMRI)による画像再構成のための全能モデルであるサイコメトリを考案した。
論文 参考訳(メタデータ) (2024-03-29T07:16:34Z) - NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties [23.893490180665996]
本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。
公開されているfMRIデータセットでテストした結果,有望な結果が得られた。
このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
論文 参考訳(メタデータ) (2024-02-02T17:34:25Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文 参考訳(メタデータ) (2023-09-30T09:15:22Z) - Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。
提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。
生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-19T09:57:19Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。