論文の概要: BP-GPT: Auditory Neural Decoding Using fMRI-prompted LLM
- arxiv url: http://arxiv.org/abs/2502.15172v1
- Date: Fri, 21 Feb 2025 03:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:42:24.129587
- Title: BP-GPT: Auditory Neural Decoding Using fMRI-prompted LLM
- Title(参考訳): BP-GPT:fMRI-prompted LLMを用いた聴覚神経復号
- Authors: Xiaoyu Chen, Changde Du, Che Liu, Yizhe Wang, Huiguang He,
- Abstract要約: 我々は新しい方法であるBrain Prompt GPT(BP-GPT)を導入する。
本手法は,fMRIから抽出した脳の表現をプロンプトとして利用することにより,GPT-2を用いてfMRI信号を刺激テキストに復号することができる。
BP-GPTをオープンソースで評価し,METEORでは4.61,BERTScoreでは2.43に向上した。
- 参考スコア(独自算出の注目度): 19.53589633360839
- License:
- Abstract: Decoding language information from brain signals represents a vital research area within brain-computer interfaces, particularly in the context of deciphering the semantic information from the fMRI signal. Although existing work uses LLM to achieve this goal, their method does not use an end-to-end approach and avoids the LLM in the mapping of fMRI-to-text, leaving space for the exploration of the LLM in auditory decoding. In this paper, we introduce a novel method, the Brain Prompt GPT (BP-GPT). By using the brain representation that is extracted from the fMRI as a prompt, our method can utilize GPT-2 to decode fMRI signals into stimulus text. Further, we introduce the text prompt and align the fMRI prompt to it. By introducing the text prompt, our BP-GPT can extract a more robust brain prompt and promote the decoding of pre-trained LLM. We evaluate our BP-GPT on the open-source auditory semantic decoding dataset and achieve a significant improvement up to 4.61 on METEOR and 2.43 on BERTScore across all the subjects compared to the state-of-the-art method. The experimental results demonstrate that using brain representation as a prompt to further drive LLM for auditory neural decoding is feasible and effective. The code is available at https://github.com/1994cxy/BP-GPT.
- Abstract(参考訳): 脳信号から言語情報を復号することは、特にfMRI信号から意味情報を解読する文脈において、脳とコンピュータのインタフェースの中で重要な研究領域である。
既存の研究はこの目的を達成するためにLLMを使用しているが、その手法はエンドツーエンドのアプローチを使わず、fMRI-to-textのマッピングにおいてLLMを避け、聴覚復号におけるLLMの探索のための空間を残している。
本稿では,新しい手法であるBrain Prompt GPT(BP-GPT)を紹介する。
本手法は,fMRIから抽出した脳の表現をプロンプトとして利用することにより,GPT-2を用いてfMRI信号を刺激テキストに復号することができる。
さらに、テキストプロンプトを導入し、fMRIプロンプトをアライメントする。
テキストプロンプトを導入することで、BP-GPTはより堅牢な脳プロンプトを抽出し、事前訓練されたLDMのデコードを促進することができる。
BP-GPTをオープンソースの聴覚意味的デコードデータセットで評価し,METEORでは4.61,BERTScoreでは2.43に向上した。
実験結果から、聴覚神経復号のためのLLMをさらに推進するプロンプトとして、脳表現を用いることは可能であり、効果的であることが示された。
コードはhttps://github.com/1994cxy/BP-GPTで公開されている。
関連論文リスト
- A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。
提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。
fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文 参考訳(メタデータ) (2024-09-29T14:03:39Z) - LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。
我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。
特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文 参考訳(メタデータ) (2024-09-26T15:57:08Z) - Automating Knowledge Discovery from Scientific Literature via LLMs: A Dual-Agent Approach with Progressive Ontology Prompting [59.97247234955861]
LLM-Duoという,プログレッシブプロンプトアルゴリズムとデュアルエージェントシステムを組み合わせた,大規模言語モデル(LLM)に基づく新しいフレームワークを提案する。
言語治療領域における64,177論文からの2,421件の介入を同定した。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - Towards an End-to-End Framework for Invasive Brain Signal Decoding with Large Language Models [24.54139799413152]
侵襲的な脳信号の復号化を目的とした,画期的なエンドツーエンド(E2E)フレームワークを提案する。
音声神経補綴術におけるE2Eフレームワークの可能性について検討した。
論文 参考訳(メタデータ) (2024-06-17T14:04:18Z) - Open-vocabulary Auditory Neural Decoding Using fMRI-prompted LLM [19.53589633360839]
本稿では,新しい方法である textbfBrain Prompt GPT (BP-GPT) を紹介する。
本手法は,fMRIから抽出した脳の表現をプロンプトとして利用することにより,GPT-2を用いてfMRI信号の刺激をテキストに復号することができる。
BP-GPTをオープンソースの聴覚意味的デコードデータセットで評価し、METEORで4.61%、BERTScoreで2.43%の大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-05-13T15:25:11Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Chat2Brain: A Method for Mapping Open-Ended Semantic Queries to Brain
Activation Maps [59.648646222905235]
そこで本研究では,テキスト2画像モデルであるText2BrainにLLMを組み合わせ,セマンティッククエリを脳活性化マップにマッピングするChat2Brainを提案する。
テキストクエリのより複雑なタスクに対して、Chat2Brainが可塑性なニューラルアクティベーションパターンを合成できることを実証した。
論文 参考訳(メタデータ) (2023-09-10T13:06:45Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - UniCoRN: Unified Cognitive Signal ReconstructioN bridging cognitive
signals and human language [23.623579364849526]
本稿では,fMRI時系列と人間の言語を橋渡しする最初のオープン語彙課題であるfMRI2textを提案する。
我々は、脳復号のためのベースラインソリューションUniCoRN: Unified Cognitive Signal ReconstructioNを提案する。
このモデルでは、fMRI2text上で34.77%のBLEUスコアが得られ、EEGto-textデコーディングに一般化すると37.04%のBLEUが得られる。
論文 参考訳(メタデータ) (2023-07-06T05:26:49Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。