Fugu-MT 論文翻訳(概要): Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance

論文の概要: Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance

arxiv url: http://arxiv.org/abs/2409.12099v1
Date: Wed, 18 Sep 2024 16:19:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 16:45:43.742847
Title: Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance
Title（参考訳）: 脳ストリーム:マルチモーダル誘導を用いたfMRI画像再構成
Authors: Jaehoon Joo, Taejin Jeong, Seongjae Hwang,
Abstract要約: 現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。 Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
参考スコア（独自算出の注目度）: 3.74142789780782
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding how humans process visual information is one of the crucial steps for unraveling the underlying mechanism of brain activity. Recently, this curiosity has motivated the fMRI-to-image reconstruction task; given the fMRI data from visual stimuli, it aims to reconstruct the corresponding visual stimuli. Surprisingly, leveraging powerful generative models such as the Latent Diffusion Model (LDM) has shown promising results in reconstructing complex visual stimuli such as high-resolution natural images from vision datasets. Despite the impressive structural fidelity of these reconstructions, they often lack details of small objects, ambiguous shapes, and semantic nuances. Consequently, the incorporation of additional semantic knowledge, beyond mere visuals, becomes imperative. In light of this, we exploit how modern LDMs effectively incorporate multi-modal guidance (text guidance, visual guidance, and image layout) for structurally and semantically plausible image generations. Specifically, inspired by the two-streams hypothesis suggesting that perceptual and semantic information are processed in different brain regions, our framework, Brain-Streams, maps fMRI signals from these brain regions to appropriate embeddings. That is, by extracting textual guidance from semantic information regions and visual guidance from perceptual information regions, Brain-Streams provides accurate multi-modal guidance to LDMs. We validate the reconstruction ability of Brain-Streams both quantitatively and qualitatively on a real fMRI dataset comprising natural image stimuli and fMRI data.
Abstract（参考訳）: 人間が視覚情報をどう処理するかを理解することは、脳活動の基盤となるメカニズムを解明するための重要なステップの1つです。近年,この好奇心がfMRIから画像への再構成作業のモチベーションとなり,視覚刺激からのfMRIデータから,対応する視覚刺激の再構築を目指している。驚くべきことに、Latent Diffusion Model (LDM)のような強力な生成モデルを活用することで、視覚データセットから高解像度の自然画像のような複雑な視覚刺激を再構成する有望な結果が示されている。これらの復元の印象的な構造的忠実さにもかかわらず、それらはしばしば小さな物体、曖昧な形、意味的なニュアンスの詳細を欠いている。結果として、単なる視覚的知識を超えて、追加的な意味知識を取り入れることが必須となる。そこで,本稿では,現代LDMにマルチモーダルガイダンス(テキスト誘導,視覚誘導,画像レイアウト)を効果的に取り入れ,構造的かつ意味論的に可能な画像生成に活用する。具体的には、知覚情報と意味情報は異なる脳領域で処理されるという2つのストリーム仮説にインスパイアされ、私たちのフレームワークであるBrain-Streamsは、これらの脳領域からのfMRI信号を適切な埋め込みにマッピングします。すなわち、意味情報領域からテキストガイダンスを抽出し、知覚情報領域から視覚的ガイダンスを抽出することにより、Brain-StreamsはLDMに対して正確なマルチモーダルガイダンスを提供する。我々は,自然画像刺激とfMRIデータからなる実fMRIデータセット上で,Brain-Streamsの定量的および定性的に再構成能力を検証する。

関連論文リスト

Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction [65.67001243986981]
我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。 MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
論文参考訳（メタデータ） (2025-10-25T15:40:07Z)
Seeing Through the Brain: New Insights from Decoding Visual Stimuli with fMRI [39.952672554797125]
我々は、fMRI信号が、視覚ベースの空間や共同テキスト画像空間よりも、言語モデルのテキスト空間によく似ていることを示す。視覚刺激再構成のためのメディア間表現として,fMRI sIgnals を構造化テキスト空間に投影するモデル PRISM を提案する。
論文参考訳（メタデータ） (2025-10-17T20:18:06Z)
Perception Activator: An intuitive and portable framework for brain cognitive exploration [19.851643249367108]
干渉条件としてfMRI表現を用いる実験フレームワークを開発した。オブジェクト検出とインスタンス分割タスクにおける下流性能と中間的特徴の変化をfMRI情報の有無で比較した。以上の結果から,fMRIには多目的セマンティック・キューが豊富に含まれていることが証明された。
論文参考訳（メタデータ） (2025-07-03T04:46:48Z)
MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文参考訳（メタデータ） (2024-05-28T00:36:25Z)
Psychometry: An Omnifit Model for Image Reconstruction from Human Brain Activity [60.983327742457995]
人間の脳活動から見るイメージを再構築することで、人間とコンピュータのビジョンをBrain-Computer Interfaceを通して橋渡しする。異なる被験者から得られた機能的磁気共鳴イメージング(fMRI)による画像再構成のための全能モデルであるサイコメトリを考案した。
論文参考訳（メタデータ） (2024-03-29T07:16:34Z)
fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文参考訳（メタデータ） (2023-11-01T07:24:22Z)
Decoding Realistic Images from Brain Activity with Contrastive Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文参考訳（メタデータ） (2023-09-30T09:15:22Z)
UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion Model from Human Brain Activity [2.666777614876322]
人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。 UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
論文参考訳（メタデータ） (2023-08-14T19:49:29Z)
MindDiffuser: Controlled Image Reconstruction from Human Brain Activity with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文参考訳（メタデータ） (2023-08-08T13:28:34Z)
Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2023-05-19T09:57:19Z)
Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。 CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文参考訳（メタデータ） (2023-05-17T11:36:40Z)
Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文参考訳（メタデータ） (2023-03-26T14:14:58Z)
BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。脳の活動、画像、およびテキストの間のモダリティギャップを埋める。 BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文参考訳（メタデータ） (2023-02-25T03:28:54Z)
Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文参考訳（メタデータ） (2022-09-30T06:32:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。