論文の概要: Transfer Learning from ImageNet for MEG-Based Decoding of Imagined Speech
- arxiv url: http://arxiv.org/abs/2601.15909v1
- Date: Thu, 22 Jan 2026 12:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.598891
- Title: Transfer Learning from ImageNet for MEG-Based Decoding of Imagined Speech
- Title(参考訳): MEGを用いた音声のデコードのための画像ネットからの伝達学習
- Authors: Soufiane Jhilal, Stéphanie Martin, Anne-Lise Giraud,
- Abstract要約: 弱い分散信号と限られたラベル付きデータのために、想像された音声の非侵襲的復号化は依然として困難である。
本稿では,脳磁図(MEG)信号を事前学習した視覚モデルと互換性のある時間周波数表現に変換する画像ベースアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-invasive decoding of imagined speech remains challenging due to weak, distributed signals and limited labeled data. Our paper introduces an image-based approach that transforms magnetoencephalography (MEG) signals into time-frequency representations compatible with pretrained vision models. MEG data from 21 participants performing imagined speech tasks were projected into three spatial scalogram mixtures via a learnable sensor-space convolution, producing compact image-like inputs for ImageNet-pretrained vision architectures. These models outperformed classical and non-pretrained models, achieving up to 90.4% balanced accuracy for imagery vs. silence, 81.0% vs. silent reading, and 60.6% for vowel decoding. Cross-subject evaluation confirmed that pretrained models capture shared neural representations, and temporal analyses localized discriminative information to imagery-locked intervals. These findings show that pretrained vision models applied to image-based MEG representations can effectively capture the structure of imagined speech in non-invasive neural signals.
- Abstract(参考訳): 弱い分散信号と限られたラベル付きデータのために、想像された音声の非侵襲的復号化は依然として困難である。
本稿では,脳磁図(MEG)信号を事前学習した視覚モデルと互換性のある時間周波数表現に変換する画像ベースアプローチを提案する。
仮想的な音声タスクを行う21人の参加者のMEGデータは、学習可能なセンサー空間の畳み込みによって3つの空間カルグラム混合体に投影され、ImageNetで事前訓練された視覚アーキテクチャのためのコンパクトなイメージライクな入力が生成される。
これらのモデルは古典的モデルや非事前学習モデルよりも優れており、画像対沈黙の精度は90.4%、音読の81.0%、母音復号の60.6%に達している。
クロスオブジェクト評価では、事前学習したモデルが共有されたニューラル表現をキャプチャし、時間的分析によって識別情報を画像ロック間隔に局所化することを確認した。
これらの結果は、画像ベースMEG表現に適用された事前学習された視覚モデルが、非侵襲的神経信号における想像された音声の構造を効果的に捉えることができることを示している。
関連論文リスト
- Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。
追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。
音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文 参考訳(メタデータ) (2025-03-19T18:40:45Z) - Decoding fMRI Data into Captions using Prefix Language Modeling [3.4328283704703866]
本稿では、DINOv2モデルによる画像の埋め込みを、対応するfMRI信号から予測することにより、脳信号を画像キャプションにデコードする方法を提案する。
また,fMRI信号から画像埋め込み空間への3次元畳み込みニューラルネットワークマッピングについて検討し,ボクセルの位置情報のより良い説明を行う。
論文 参考訳(メタデータ) (2025-01-05T15:06:25Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Decoding visual brain representations from electroencephalography
through Knowledge Distillation and latent diffusion models [0.12289361708127873]
本稿では,脳波(EEG)データを用いて,ImageNetデータセットから画像の分類と再構成を行う革新的な手法を提案する。
我々は6人の被験者の脳波記録を分析し、それぞれ40のユニークな意味カテゴリーにまたがる50の画像に暴露した。
我々は,事前学習した潜伏拡散モデルに基づく画像再構成機構を導入し,脳波を誘発した画像の推定を可能とした。
論文 参考訳(メタデータ) (2023-09-08T09:13:50Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - SynthMorph: learning contrast-invariant registration without acquired
images [8.0963891430422]
画像データを取得せずに画像登録を学習するための戦略を導入する。
この戦略は任意のMRIコントラストの堅牢かつ正確な登録を可能にする。
論文 参考訳(メタデータ) (2020-04-21T20:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。