論文の概要: A multimodal LLM for the non-invasive decoding of spoken text from brain recordings
- arxiv url: http://arxiv.org/abs/2409.19710v1
- Date: Sun, 29 Sep 2024 14:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:05:28.478022
- Title: A multimodal LLM for the non-invasive decoding of spoken text from brain recordings
- Title(参考訳): 脳記録からの音声テキストの非侵襲復号のためのマルチモーダルLLM
- Authors: Youssef Hmamouche, Ismail Chihab, Lahoucine Kdouri, Amal El Fallah Seghrouchni,
- Abstract要約: fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。
提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。
fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
- 参考スコア(独自算出の注目度): 0.4187344935012482
- License:
- Abstract: Brain-related research topics in artificial intelligence have recently gained popularity, particularly due to the expansion of what multimodal architectures can do from computer vision to natural language processing. Our main goal in this work is to explore the possibilities and limitations of these architectures in spoken text decoding from non-invasive fMRI recordings. Contrary to vision and textual data, fMRI data represent a complex modality due to the variety of brain scanners, which implies (i) the variety of the recorded signal formats, (ii) the low resolution and noise of the raw signals, and (iii) the scarcity of pretrained models that can be leveraged as foundation models for generative learning. These points make the problem of the non-invasive decoding of text from fMRI recordings very challenging. In this paper, we propose and end-to-end multimodal LLM for decoding spoken text from fMRI signals. The proposed architecture is founded on (i) an encoder derived from a specific transformer incorporating an augmented embedding layer for the encoder and a better-adjusted attention mechanism than that present in the state of the art, and (ii) a frozen large language model adapted to align the embedding of the input text and the encoded embedding of brain activity to decode the output text. A benchmark in performed on a corpus consisting of a set of interactions human-human and human-robot interactions where fMRI and conversational signals are recorded synchronously. The obtained results are very promising, as our proposal outperforms the evaluated models, and is able to generate text capturing more accurate semantics present in the ground truth. The implementation code is provided in https://github.com/Hmamouche/brain_decode.
- Abstract(参考訳): 人工知能における脳関連研究トピックは、特にコンピュータビジョンから自然言語処理へのマルチモーダルアーキテクチャの拡張により、最近人気が高まっている。
本研究の主な目的は、非侵襲的なfMRI記録からの音声テキスト復号におけるこれらのアーキテクチャの可能性と限界を探ることである。
視覚とテキストデータとは対照的に、fMRIデータは脳スキャナーの多様性による複雑なモダリティを表す。
i) 記録された信号形式の種類
二 生信号の低分解能及び雑音
三 生成学習の基礎モデルとして活用できる事前学習モデルの不足
これらの点は、fMRI記録からのテキストの非侵襲的復号化の問題を非常に困難にしている。
本稿では,fMRI信号から音声テキストを復号するマルチモーダルLLMを提案する。
提案されているアーキテクチャは
一 エンコーダの増設埋込層を組み込んだ特定の変圧器から派生したエンコーダであって、最先端にあるものよりも優れた調整された注意機構を有するもの
(II) 入力テキストの埋め込みと脳活動のエンコード埋め込みを調整して出力テキストを復号化するために適合した凍結した大言語モデル。
fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
提案手法は評価されたモデルより優れており, より正確な意味を抽出するテキストを生成することができるため, 得られた結果は非常に有望である。
実装コードはhttps://github.com/Hmamouche/brain_decode.comで提供されている。
関連論文リスト
- CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models [0.0]
本稿では,脳活動からのセマンティック情報デコーディングタスクの高速化を目的とした生成フレームワークであるBrainChatを提案する。
BrainChatはfMRI質問応答とfMRIキャプションを実装している。
BrainChatは非常にフレキシブルで、画像データなしで高いパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2024-06-10T12:06:15Z) - MindFormer: A Transformer Architecture for Multi-Subject Brain Decoding via fMRI [50.55024115943266]
我々は、fMRI条件の特徴ベクトルを生成するためにMindFormerと呼ばれる新しいトランスフォーマーアーキテクチャを導入する。
MindFormerは,1)fMRI信号から意味論的に意味のある特徴を抽出するIP-Adapterに基づく新しいトレーニング戦略,2)fMRI信号の個人差を効果的に捉える主観的トークンと線形層である。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Language Reconstruction with Brain Predictive Coding from fMRI Data [28.217967547268216]
予測符号化の理論は、人間の脳が将来的な単語表現を継続的に予測していることを示唆している。
textscPredFTは、BLEU-1スコアが最大27.8%$の最先端のデコード性能を実現する。
論文 参考訳(メタデータ) (2024-05-19T16:06:02Z) - Decoding Continuous Character-based Language from Non-invasive Brain Recordings [33.11373366800627]
本研究では,単心的非侵襲的fMRI記録から連続言語を復号する手法を提案する。
文字ベースのデコーダは、固有の文字構造を特徴とする連続言語の意味的再構成のために設計されている。
被験者間での単一の試行から連続言語を復号化できることは、非侵襲的な言語脳-コンピュータインタフェースの有望な応用を実証している。
論文 参考訳(メタデータ) (2024-03-17T12:12:33Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - UniCoRN: Unified Cognitive Signal ReconstructioN bridging cognitive
signals and human language [23.623579364849526]
本稿では,fMRI時系列と人間の言語を橋渡しする最初のオープン語彙課題であるfMRI2textを提案する。
我々は、脳復号のためのベースラインソリューションUniCoRN: Unified Cognitive Signal ReconstructioNを提案する。
このモデルでは、fMRI2text上で34.77%のBLEUスコアが得られ、EEGto-textデコーディングに一般化すると37.04%のBLEUが得られる。
論文 参考訳(メタデータ) (2023-07-06T05:26:49Z) - DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text
Diffusion [40.246665336996934]
エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。
DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
論文 参考訳(メタデータ) (2023-05-19T08:30:11Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。