論文の概要: Reverse the auditory processing pathway: Coarse-to-fine audio reconstruction from fMRI
- arxiv url: http://arxiv.org/abs/2405.18726v1
- Date: Wed, 29 May 2024 03:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:58:09.550012
- Title: Reverse the auditory processing pathway: Coarse-to-fine audio reconstruction from fMRI
- Title(参考訳): 聴覚処理経路の逆転:fMRIによる粗大な音像再構成
- Authors: Che Liu, Changde Du, Xiaoyu Chen, Huiguang He,
- Abstract要約: 本稿では,機能的磁気共鳴画像(fMRI)データに基づく,より粗い音響再構成手法を提案する。
我々は,3つの公開fMRIデータセットであるBrain2Sound,Brain2Music,Brain2Speechについて検証を行った。
復号化時に意味的プロンプトを用いることで,意味的特徴が最適でない場合に,再構成音声の品質を向上させる。
- 参考スコア(独自算出の注目度): 20.432212333539628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drawing inspiration from the hierarchical processing of the human auditory system, which transforms sound from low-level acoustic features to high-level semantic understanding, we introduce a novel coarse-to-fine audio reconstruction method. Leveraging non-invasive functional Magnetic Resonance Imaging (fMRI) data, our approach mimics the inverse pathway of auditory processing. Initially, we utilize CLAP to decode fMRI data coarsely into a low-dimensional semantic space, followed by a fine-grained decoding into the high-dimensional AudioMAE latent space guided by semantic features. These fine-grained neural features serve as conditions for audio reconstruction through a Latent Diffusion Model (LDM). Validation on three public fMRI datasets-Brain2Sound, Brain2Music, and Brain2Speech-underscores the superiority of our coarse-to-fine decoding method over stand-alone fine-grained approaches, showcasing state-of-the-art performance in metrics like FD, FAD, and KL. Moreover, by employing semantic prompts during decoding, we enhance the quality of reconstructed audio when semantic features are suboptimal. The demonstrated versatility of our model across diverse stimuli highlights its potential as a universal brain-to-audio framework. This research contributes to the comprehension of the human auditory system, pushing boundaries in neural decoding and audio reconstruction methodologies.
- Abstract(参考訳): 低レベルの音響特徴から高レベルの意味理解に音を変換する人間の聴覚システムの階層的処理からインスピレーションを得て,新しい粗大な音声再構成手法を提案する。
非侵襲的機能的磁気共鳴画像(fMRI)データを活用することで,聴覚処理の逆経路を再現する。
CLAPを用いてfMRIデータを低次元のセマンティック空間に粗くデコードし、続いてセマンティック特徴によって導かれる高次元AudioMAE潜在空間に細粒度デコードする。
これらの微細な神経機能は、潜在拡散モデル(LDM)によるオーディオ再構成の条件として機能する。
Brain2Sound、Brain2Music、Brain2Speechの3つの公開fMRIデータセットに対する検証は、FD、FAD、KLといったメトリクスで最先端のパフォーマンスを示す、スタンドアローンの微細なアプローチよりも粗大な復号法の方が優れていることを示す。
さらに,復号化時に意味的プロンプトを用いることで,意味的特徴が最適でない場合に,再構成音声の品質を向上させる。
多様な刺激にまたがるモデルの多角性を示すことは、脳から音声への普遍的な枠組みとしての可能性を浮き彫りにしている。
本研究は,人間の聴覚システムの理解に寄与し,神経復号法と音声再構成法の境界を推し進める。
関連論文リスト
- R&B -- Rhythm and Brain: Cross-subject Decoding of Music from Human Brain Activity [0.12289361708127873]
音楽は、文化全体にわたる人間の経験に大きな影響を及ぼす普遍的な現象である。
本研究では,音楽の知覚における機能的MRI(FMRI)を用いた人間の脳活動から,音楽の復号化が可能であるかを検討した。
論文 参考訳(メタデータ) (2024-06-21T17:11:45Z) - Understanding Auditory Evoked Brain Signal via Physics-informed Embedding Network with Multi-Task Transformer [3.261870217889503]
マルチタスク変換器(PEMT-Net)を用いた物理インフォームド・エンベディング・ネットワークという,革新的なマルチタスク学習モデルを提案する。
PEMT-Netは物理インフォームド埋め込みとディープラーニング技術によりデコード性能を向上させる。
特定のデータセットに対する実験は、PEMT-Netがマルチタスクの聴覚信号復号における顕著な性能を示した。
論文 参考訳(メタデータ) (2024-06-04T06:53:32Z) - MindFormer: A Transformer Architecture for Multi-Subject Brain Decoding via fMRI [50.55024115943266]
我々は、fMRI条件の特徴ベクトルを生成するためにMindFormerと呼ばれる新しいトランスフォーマーアーキテクチャを導入する。
MindFormerは,1)fMRI信号から意味論的に意味のある特徴を抽出するIP-Adapterに基づく新しいトレーニング戦略,2)fMRI信号の個人差を効果的に捉える主観的トークンと線形層である。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI [32.40827290083577]
機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。
トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。
論文 参考訳(メタデータ) (2024-03-11T01:18:49Z) - NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties [23.893490180665996]
本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。
公開されているfMRIデータセットでテストした結果,有望な結果が得られた。
このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
論文 参考訳(メタデータ) (2024-02-02T17:34:25Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Facial Image Reconstruction from Functional Magnetic Resonance Imaging
via GAN Inversion with Improved Attribute Consistency [5.705640492618758]
我々はfMRIデータから顔画像を再構成する新しい枠組みを提案する。
提案手法は,(1)fMRIデータから明瞭な顔画像の再構成,(2)意味的特徴の一貫性の維持という2つの目標を達成する。
論文 参考訳(メタデータ) (2022-07-03T11:18:35Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。