論文の概要: DecoFuse: Decomposing and Fusing the "What", "Where", and "How" for Brain-Inspired fMRI-to-Video Decoding
- arxiv url: http://arxiv.org/abs/2504.00432v1
- Date: Tue, 01 Apr 2025 05:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:07.669360
- Title: DecoFuse: Decomposing and Fusing the "What", "Where", and "How" for Brain-Inspired fMRI-to-Video Decoding
- Title(参考訳): DecoFuse:脳にインスパイアされたfMRI-to-Videoデコードのための"What"、"Where"、"How"を分解して再利用する
- Authors: Chong Li, Jingyang Huo, Weikang Gong, Yanwei Fu, Xiangyang Xue, Jianfeng Feng,
- Abstract要約: 既存のfMRI-to-video法は、しばしば空間情報や動き情報を見下ろしながら意味的内容に焦点を当てる。
そこで我々は,fMRI信号から映像をデコードするための,脳にインスパイアされた新しいフレームワークであるDecoFuseを提案する。
まず、ビデオはセマンティック、空間、動きの3つのコンポーネントに分解し、次に各コンポーネントを別々にデコードしてから、ビデオを再構成する。
- 参考スコア(独自算出の注目度): 82.91021399231184
- License:
- Abstract: Decoding visual experiences from brain activity is a significant challenge. Existing fMRI-to-video methods often focus on semantic content while overlooking spatial and motion information. However, these aspects are all essential and are processed through distinct pathways in the brain. Motivated by this, we propose DecoFuse, a novel brain-inspired framework for decoding videos from fMRI signals. It first decomposes the video into three components - semantic, spatial, and motion - then decodes each component separately before fusing them to reconstruct the video. This approach not only simplifies the complex task of video decoding by decomposing it into manageable sub-tasks, but also establishes a clearer connection between learned representations and their biological counterpart, as supported by ablation studies. Further, our experiments show significant improvements over previous state-of-the-art methods, achieving 82.4% accuracy for semantic classification, 70.6% accuracy in spatial consistency, a 0.212 cosine similarity for motion prediction, and 21.9% 50-way accuracy for video generation. Additionally, neural encoding analyses for semantic and spatial information align with the two-streams hypothesis, further validating the distinct roles of the ventral and dorsal pathways. Overall, DecoFuse provides a strong and biologically plausible framework for fMRI-to-video decoding. Project page: https://chongjg.github.io/DecoFuse/.
- Abstract(参考訳): 脳の活動から視覚体験をデコードすることは重要な課題である。
既存のfMRI-to-video法は、しばしば空間情報や動き情報を見下ろしながら意味的内容に焦点を当てる。
しかし、これらの側面は全て必須であり、脳内の異なる経路を通して処理される。
そこで我々は,fMRI信号から映像をデコードするための,脳に触発された新しいフレームワークであるDecoFuseを提案する。
まず、ビデオはセマンティック、空間、動きの3つのコンポーネントに分解し、次に各コンポーネントを別々にデコードしてから、ビデオを再構成する。
このアプローチは、ビデオデコーディングの複雑なタスクを、管理可能なサブタスクに分解することで単純化するだけでなく、アブレーション研究によって支持されるように、学習された表現とそれらの生物学的表現とのより明確な接続を確立する。
さらに,従来の最先端手法に比べて,意味的分類の精度82.4%,空間的一貫性の精度70.6%,動き予測のコサイン類似度0.212,映像生成の50ウェイ精度21.9%を達成できた。
さらに、意味的および空間的情報のためのニューラルエンコーディング解析は、2ストリーム仮説と一致し、腹側および背側経路の異なる役割を更に検証する。
全体として、DecoFuseはfMRIからビデオへのデコーディングのための強力で生物学的に妥当なフレームワークを提供する。
プロジェクトページ: https://chongjg.github.io/DecoFuse/。
関連論文リスト
- MindAligner: Explicit Brain Functional Alignment for Cross-Subject Visual Decoding from Limited fMRI Data [64.92867794764247]
MindAlignerは、限られたfMRIデータからのクロスオブジェクト脳デコーディングのためのフレームワークである。
脳伝達マトリックス(BTM)は、任意の新しい被験者の脳信号を既知の被験者の1人に投射する。
脳機能アライメントモジュールは、異なる視覚刺激下で軟質なクロスオブジェクト脳アライメントを実行するために提案されている。
論文 参考訳(メタデータ) (2025-02-07T16:01:59Z) - Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。
我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。
特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文 参考訳(メタデータ) (2024-09-26T15:57:08Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - Cinematic Mindscapes: High-quality Video Reconstruction from Brain
Activity [0.0]
我々は,Mind-Videoを用いて,任意のフレームレートで高品質な映像を再構成可能であることを示す。
また,我々のモデルは,確立された生理的過程を反映し,生物学的に妥当かつ解釈可能であることも示している。
論文 参考訳(メタデータ) (2023-05-19T13:44:25Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。