論文の概要: Imagined Speech and Visual Imagery as Intuitive Paradigms for Brain-Computer Interfaces
- arxiv url: http://arxiv.org/abs/2411.09400v2
- Date: Fri, 29 Nov 2024 16:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 20:28:07.500331
- Title: Imagined Speech and Visual Imagery as Intuitive Paradigms for Brain-Computer Interfaces
- Title(参考訳): 脳-コンピュータインタフェースのための直観的パラダイムとしての音声と視覚画像
- Authors: Seo-Hyun Lee, Ji-Ha Park, Deok-Seon Kim,
- Abstract要約: 脳コンピュータインタフェース(BCI)は、運動障害のある個人のためのコミュニケーションを可能にすることを約束している。
脳音声技術のような最近の進歩は、音声を神経活動から再構築することを目的としている。
非侵襲的手法を用いた想像的音声や視覚画像などの通信関連パラダイムの復号化は依然として困難である。
- 参考スコア(独自算出の注目度): 1.33134751838052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain-computer interfaces (BCIs) have shown promise in enabling communication for individuals with motor impairments. Recent advancements like brain-to-speech technology aim to reconstruct speech from neural activity. However, decoding communication-related paradigms, such as imagined speech and visual imagery, using non-invasive techniques remains challenging. This study analyzes brain dynamics in these two paradigms by examining neural synchronization and functional connectivity through phase-locking values (PLV) in EEG data from 16 participants. Results show that visual imagery produces higher PLV values in visual cortex, engaging spatial networks, while imagined speech demonstrates consistent synchronization, primarily engaging language-related regions. These findings suggest that imagined speech is suitable for language-driven BCI applications, while visual imagery can complement BCI systems for users with speech impairments. Personalized calibration is crucial for optimizing BCI performance.
- Abstract(参考訳): 脳コンピュータインタフェース(BCI)は、運動障害のある個人のためのコミュニケーションを可能にすることを約束している。
脳音声技術のような最近の進歩は、音声を神経活動から再構築することを目的としている。
しかし,非侵襲的手法を用いた想像音声や視覚画像などの通信関連パラダイムの復号化は依然として困難である。
本研究では,この2つのパラダイムにおける脳の動態を,脳波データ中の位相同期値(PLV)を通して,神経同期と機能的接続性を調べることによって解析する。
その結果、視覚画像は視覚野において高いPLV値を発生し、空間的ネットワークが関与する一方、想像された音声は一貫した同期を示し、主に言語関連領域が関与することを示した。
これらの結果から,視覚画像は音声障害のあるユーザに対して,BCIシステムを補完するのに対して,言語駆動型BCIアプリケーションに適していることが示唆された。
パーソナライズドキャリブレーションはBCI性能の最適化に不可欠である。
関連論文リスト
- Towards Dynamic Neural Communication and Speech Neuroprosthesis Based on Viseme Decoding [25.555303640695577]
テキスト、音声、あるいは人間の神経信号から画像を復号することは、患者の神経補綴や革新的なコミュニケーションツールとして有望な可能性を秘めている。
音声関連非侵襲脳信号から視覚音声意図を復号する拡散モデルに基づくフレームワークを開発した。
脳信号と動的視覚インターフェースのギャップを効果的に埋め、コヒーレントな唇運動の再構築に成功した。
論文 参考訳(メタデータ) (2025-01-09T04:47:27Z) - Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals [1.33134751838052]
本研究では,非侵襲的ニューラルネットワーク復号法におけるディープラーニングモデルの有効性について検討した。
それは、知覚、過度、ささやき、想像されたスピーチなど、異なる音声パラダイムの区別に焦点を当てた。
論文 参考訳(メタデータ) (2024-11-14T07:20:08Z) - Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Using Multimodal Deep Neural Networks to Disentangle Language from Visual Aesthetics [8.749640179057469]
我々は、自然画像の人間の美的評価を予測するために、ユニモーダル視覚、ユニモーダル言語、マルチモーダルディープニューラルネットワーク(DNN)モデルの学習表現に対する線形復号を用いる。
言語対応型視覚モデル(SLIPなど)は, 単言語型視覚モデル(SimCLRなど)では, 言語対応の視覚モデル(SLIPなど)では, 単言語型視覚と比較して小さな利得が得られている。
まとめると、これらの結果は、最終的に我々が美の体験を説明するために見つかるであろう言葉が何であれ、フィードフォワードの知覚の計算は、その経験に十分な基礎を与えるかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-10-31T03:37:21Z) - MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。
我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。
4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文 参考訳(メタデータ) (2024-07-25T16:39:21Z) - Towards Decoding Brain Activity During Passive Listening of Speech [0.0]
深層学習法を用いて頭蓋内脳波(iEEG)データから発声音声を復号しようとする。
このアプローチは、従来の音声生成の焦点から外れ、知覚された音声の神経表現を調査することを選択する。
アプローチはまだ画期的な成果を上げていないが、この研究は、音声認識中の神経活動の復号化の可能性に光を当てている。
論文 参考訳(メタデータ) (2024-02-26T20:04:01Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - MindGPT: Interpreting What You See with Non-invasive Brain Recordings [24.63828455553959]
我々は,fMRI信号から知覚された視覚刺激を自然言語に解釈する,MindGPTと呼ばれる非侵襲的ニューラルデコーダを導入する。
実験の結果, 生成した単語列は, 目に見える刺激で伝達される視覚情報を真に表現していることがわかった。
論文 参考訳(メタデータ) (2023-09-27T15:35:20Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Inner speech recognition through electroencephalographic signals [2.578242050187029]
本研究は、脳波信号から始まる内的音声認識に焦点を当てる。
脳波のテキストへの復号は、限られた数の単語(コマンド)の分類として理解されるべきである。
音声関連BCIは、脳信号からの音声コマンドを通してデバイスを制御する効果的な音声通信戦略を提供する。
論文 参考訳(メタデータ) (2022-10-11T08:29:12Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。