論文の概要: fMRI2GES: Co-speech Gesture Reconstruction from fMRI Signal with Dual Brain Decoding Alignment
- arxiv url: http://arxiv.org/abs/2512.01189v1
- Date: Mon, 01 Dec 2025 02:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.634233
- Title: fMRI2GES: Co-speech Gesture Reconstruction from fMRI Signal with Dual Brain Decoding Alignment
- Title(参考訳): fMRI2GES:デュアル脳デコードアライメントを用いたfMRI信号からの音声合成
- Authors: Chunzheng Zhu, Jialin Shao, Jianxin Lin, Yijun Wang, Jing Wang, Jinhui Tang, Kenli Li,
- Abstract要約: 本研究では,fMRI-to-gesture Restruction Network のトレーニングを可能にする新しいアプローチ textbffMRI2GES を提案する。
提案手法は,fMRI記録から直接表現的ジェスチャーを再構成できることを示す。
- 参考スコア(独自算出の注目度): 47.45203641583922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how the brain responds to external stimuli and decoding this process has been a significant challenge in neuroscience. While previous studies typically concentrated on brain-to-image and brain-to-language reconstruction, our work strives to reconstruct gestures associated with speech stimuli perceived by brain. Unfortunately, the lack of paired \{brain, speech, gesture\} data hinders the deployment of deep learning models for this purpose. In this paper, we introduce a novel approach, \textbf{fMRI2GES}, that allows training of fMRI-to-gesture reconstruction networks on unpaired data using \textbf{Dual Brain Decoding Alignment}. This method relies on two key components: (i) observed texts that elicit brain responses, and (ii) textual descriptions associated with the gestures. Then, instead of training models in a completely supervised manner to find a mapping relationship among the three modalities, we harness an fMRI-to-text model, a text-to-gesture model with paired data and an fMRI-to-gesture model with unpaired data, establishing dual fMRI-to-gesture reconstruction patterns. Afterward, we explicitly align two outputs and train our model in a self-supervision way. We show that our proposed method can reconstruct expressive gestures directly from fMRI recordings. We also investigate fMRI signals from different ROIs in the cortex and how they affect generation results. Overall, we provide new insights into decoding co-speech gestures, thereby advancing our understanding of neuroscience and cognitive science.
- Abstract(参考訳): 脳が外部からの刺激にどのように反応し、この過程をデコードするかを理解することは、神経科学において重要な課題である。
これまでの研究では、脳からイメージ、脳から言語への再構築に重点を置いていたが、我々の研究は、脳が知覚する音声刺激に関連するジェスチャーを再構築しようと試みた。
残念ながら、ペア化された{brain, speech, gesture\}データの不足は、この目的のためにディープラーニングモデルのデプロイを妨げる。
本稿では,新しいアプローチである‘textbf{fMRI2GES}を導入し,<textbf{Dual Brain Decoding Alignment} を用いて,不注意なデータに対する fMRI-to-gesture Restruction Network のトレーニングを可能にする。
この方法は2つの重要なコンポーネントに依存します。
(i)脳反応を誘発する観察テキスト、及び
(ii)ジェスチャーに関連する文章の記述。
そして、3つのモード間のマッピング関係を見つけるために、完全に教師された方法でモデルをトレーニングする代わりに、ペアデータを持つfMRI-to-textモデル、ペアデータを持つfMRI-to-gestureモデルと、ペアデータを持たないfMRI-to-gestureモデルを使い、二重のfMRI-to-gesture再構成パターンを確立する。
その後、2つのアウトプットを明示的に調整し、自己超越的な方法でモデルをトレーニングします。
提案手法は,fMRI記録から直接表現的ジェスチャーを再構成できることを示す。
また、大脳皮質の異なるROIからのfMRI信号と、それらが生成結果に与える影響についても検討した。
全体として、我々は共同音声ジェスチャーの復号化に関する新たな洞察を提供し、それによって神経科学と認知科学の理解を深める。
関連論文リスト
- Seeing Through the Brain: New Insights from Decoding Visual Stimuli with fMRI [39.952672554797125]
我々は、fMRI信号が、視覚ベースの空間や共同テキスト画像空間よりも、言語モデルのテキスト空間によく似ていることを示す。
視覚刺激再構成のためのメディア間表現として,fMRI sIgnals を構造化テキスト空間に投影するモデル PRISM を提案する。
論文 参考訳(メタデータ) (2025-10-17T20:18:06Z) - From Flat to Round: Redefining Brain Decoding with Surface-Based fMRI and Cortex Structure [11.760848227175591]
人間の脳活動(例えばfMRI)から視覚刺激を再構築することは神経科学とコンピュータビジョンを橋渡しする。
球面上の空間的コヒーレントな2次元球面データとしてfMRI信号を明示的にモデル化する新しいスフィア・トークンーザを提案する。
また、構造MRIデータの統合も提案し、個々の解剖学的変動をパーソナライズした符号化を可能にする。
論文 参考訳(メタデータ) (2025-07-22T09:34:39Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties [23.893490180665996]
本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。
公開されているfMRIデータセットでテストした結果,有望な結果が得られた。
このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
論文 参考訳(メタデータ) (2024-02-02T17:34:25Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。