論文の概要: Coherent Language Reconstruction from Brain Recordings with Flexible Multi-Modal Input Stimuli
- arxiv url: http://arxiv.org/abs/2505.10356v1
- Date: Thu, 15 May 2025 14:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.361852
- Title: Coherent Language Reconstruction from Brain Recordings with Flexible Multi-Modal Input Stimuli
- Title(参考訳): フレキシブルマルチモード入力刺激を用いた脳記録からのコヒーレント言語再構成
- Authors: Chunyu Ye, Shaonan Wang,
- Abstract要約: 脳の活動から思考を復号することは、人間の認知に関する貴重な洞察を与え、脳とコンピュータの相互作用において有望な応用を可能にする。
本稿では,多様な入力モダリティによって引き起こされた脳記録からコヒーレント言語を再構築するための統一的で柔軟なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.589479682782169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding thoughts from brain activity offers valuable insights into human cognition and enables promising applications in brain-computer interaction. While prior studies have explored language reconstruction from fMRI data, they are typically limited to single-modality inputs such as images or audio. In contrast, human thought is inherently multimodal. To bridge this gap, we propose a unified and flexible framework for reconstructing coherent language from brain recordings elicited by diverse input modalities-visual, auditory, and textual. Our approach leverages visual-language models (VLMs), using modality-specific experts to jointly interpret information across modalities. Experiments demonstrate that our method achieves performance comparable to state-of-the-art systems while remaining adaptable and extensible. This work advances toward more ecologically valid and generalizable mind decoding.
- Abstract(参考訳): 脳の活動から思考を復号することは、人間の認知に関する貴重な洞察を与え、脳とコンピュータの相互作用において有望な応用を可能にする。
以前の研究では、fMRIデータから言語再構成を調査してきたが、一般的には画像やオーディオのような単一のモダリティ入力に限られていた。
対照的に、人間の思考は本質的にマルチモーダルである。
このギャップを埋めるために,多様な入力モダリティ,聴覚,テキストによって引き起こされる脳記録からコヒーレント言語を再構築するための統一的で柔軟な枠組みを提案する。
提案手法は視覚言語モデル(VLM)を利用して,モーダルを横断する情報を共同で解釈する。
実験により,本手法は適応性と拡張性を保ちながら,最先端システムに匹敵する性能を実現することを示す。
この研究は、より生態学的に有効で一般化可能なマインドデコーディングへと進む。
関連論文リスト
- Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。
ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-07-25T10:08:37Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。