論文の概要: Thought2Text: Text Generation from EEG Signal using Large Language Models (LLMs)
- arxiv url: http://arxiv.org/abs/2410.07507v1
- Date: Thu, 10 Oct 2024 00:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:46:37.143600
- Title: Thought2Text: Text Generation from EEG Signal using Large Language Models (LLMs)
- Title(参考訳): Thought2Text:大言語モデル(LLM)を用いた脳波からのテキスト生成
- Authors: Abhijit Mishra, Shreya Shukla, Jose Torres, Jacek Gwizdka, Shounak Roychowdhury,
- Abstract要約: 本稿では、この目的を達成するために、脳波データを微調整した命令調整大型言語モデル(LLM)を用いたThought2Textを提案する。
画像刺激を伴う6人の被験者を対象に収集したパブリック脳波データセットによる実験により,マルチモーダルLLMの有効性が示された。
このアプローチは、ニューロサイエンスと自然言語処理(NLP)の両方に潜在的に応用可能なポータブルで低コストな「テキストへの思考」技術への大きな進歩を示す。
- 参考スコア(独自算出の注目度): 4.720913027054481
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Decoding and expressing brain activity in a comprehensible form is a challenging frontier in AI. This paper presents Thought2Text, which uses instruction-tuned Large Language Models (LLMs) fine-tuned with EEG data to achieve this goal. The approach involves three stages: (1) training an EEG encoder for visual feature extraction, (2) fine-tuning LLMs on image and text data, enabling multimodal description generation, and (3) further fine-tuning on EEG embeddings to generate text directly from EEG during inference. Experiments on a public EEG dataset collected for six subjects with image stimuli demonstrate the efficacy of multimodal LLMs (LLaMa-v3, Mistral-v0.3, Qwen2.5), validated using traditional language generation evaluation metrics, GPT-4 based assessments, and evaluations by human expert. This approach marks a significant advancement towards portable, low-cost "thoughts-to-text" technology with potential applications in both neuroscience and natural language processing (NLP).
- Abstract(参考訳): 理解可能な形で脳活動を復号し表現することは、AIにおける挑戦的なフロンティアである。
本稿では、この目的を達成するために、脳波データを微調整した命令調整大型言語モデル(LLM)を用いたThought2Textを提案する。
本手法は, 視覚的特徴抽出のための脳波エンコーダのトレーニング, 2) 画像およびテキストデータ上での微調整, マルチモーダル記述生成, (3) 脳波エンコーダのさらなる微調整により, 推論中に直接脳波からテキストを生成する。
画像刺激を伴う6名の被験者を対象に収集したパブリック脳波データセットを用いて,従来の言語生成評価指標,GPT-4に基づく評価,人手による評価を用いて,マルチモーダルLLM(LLaMa-v3,Mistral-v0.3,Qwen2.5)の有効性を実証した。
このアプローチは、ニューロサイエンスと自然言語処理(NLP)の両方に潜在的な応用が期待できる、ポータブルで低コストな「テキストへの思考」技術への大きな進歩を示す。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - SEE: Semantically Aligned EEG-to-Text Translation [5.460650382586978]
神経生理学的信号を言語に復号することは、脳-コンピュータインターフェース(BCI)の応用において非常に興味深い研究である。
現在のEEG-to-Textデコーディングアプローチは、EEGレコードと生テキストの間に大きなドメインギャップがあるため、課題に直面している。
本稿では,脳波からテキストへのデコードを改善するための新しい手法であるセマンティック・アラインドEEG-to-Text Translationを提案する。
論文 参考訳(メタデータ) (2024-09-14T05:37:15Z) - BELT-2: Bootstrapping EEG-to-Language representation alignment for multi-task brain decoding [24.54436986074267]
本稿では,脳波信号からの符号化性能と復号性能の両立を目的としたマルチタスクモデルであるBELT-2を紹介する。
BELT-2は、1)バイトペア符号化(BPE)レベルのEEG言語アライメントを採用し、2)マルチタスクトレーニングとデコーディングをEEGドメインに統合する最初の試みである。
これらの革新的な試みによりBELT-2は先駆的なブレークスルーとなり、非侵襲的な脳信号からコヒーレントで読みやすい文を復号できる分野における最初の作品となった。
論文 参考訳(メタデータ) (2024-08-28T12:30:22Z) - Towards Linguistic Neural Representation Learning and Sentence Retrieval from Electroencephalogram Recordings [27.418738450536047]
脳波信号を文に変換するための2ステップパイプラインを提案する。
まず,自然読解中に記録された脳波データから単語レベルの意味情報を学習できることを確認する。
脳波エンコーダからの予測に基づいて文章を検索するために,学習不要な検索手法を用いる。
論文 参考訳(メタデータ) (2024-08-08T03:40:25Z) - Enhancing EEG-to-Text Decoding through Transferable Representations from Pre-trained Contrastive EEG-Text Masked Autoencoder [69.7813498468116]
コントラスト型脳波テキストマスケード自動エンコーダ(CET-MAE)を提案する。
また、E2T-PTR(Pretrained Transferable Representationsを用いたEEG-to-Text decoding)と呼ばれるフレームワークを開発し、EEGシーケンスからテキストをデコードする。
論文 参考訳(メタデータ) (2024-02-27T11:45:21Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Deep Representation Learning for Open Vocabulary
Electroencephalography-to-Text Decoding [6.014363449216054]
神経科学に現代的な表現型学習アプローチをもたらす非侵襲的な脳記録のためのエンドツーエンドのディープラーニングフレームワークを提案する。
BLEU-1スコアは42.75%,ROUGE-1-F33.28%,BERTScore-F53.86%で,それぞれ3.38%,8.43%,6.31%であった。
論文 参考訳(メタデータ) (2023-11-15T08:03:09Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。