論文の概要: Aligning Brain Signals with Multimodal Speech and Vision Embeddings
- arxiv url: http://arxiv.org/abs/2511.00065v1
- Date: Wed, 29 Oct 2025 05:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.554784
- Title: Aligning Brain Signals with Multimodal Speech and Vision Embeddings
- Title(参考訳): マルチモーダル音声と視覚埋め込みによる脳信号の調整
- Authors: Kateryna Shapovalenko, Quentin Auster,
- Abstract要約: 我々は、平均的なwav2vec2音声埋め込みで脳波信号を一致させるMetaからの作業を構築している。
音声を言語にエンコードするwav2vec2と、単語を画像にマッピングするCLIPの2つのモデルからの埋め込みを比較した。
脳波を自然な音声知覚中に記録した脳波を用いて,これらの埋め込みが脳活動とどのように一致しているかを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When we hear the word "house", we don't just process sound, we imagine walls, doors, memories. The brain builds meaning through layers, moving from raw acoustics to rich, multimodal associations. Inspired by this, we build on recent work from Meta that aligned EEG signals with averaged wav2vec2 speech embeddings, and ask a deeper question: which layers of pre-trained models best reflect this layered processing in the brain? We compare embeddings from two models: wav2vec2, which encodes sound into language, and CLIP, which maps words to images. Using EEG recorded during natural speech perception, we evaluate how these embeddings align with brain activity using ridge regression and contrastive decoding. We test three strategies: individual layers, progressive concatenation, and progressive summation. The findings suggest that combining multimodal, layer-aware representations may bring us closer to decoding how the brain understands language, not just as sound, but as experience.
- Abstract(参考訳): ハウス」という言葉を聞くと、単に音を処理するだけでなく、壁、ドア、思い出を想像します。
脳は、生の音響からリッチなマルチモーダルアソシエーションへと、レイヤーを通して意味を成す。
これに触発されて、私たちはMetaの最近の研究に基づいて、脳波信号を平均的なwav2vec2音声埋め込みと整列させ、より深い疑問を投げかけます。
音声を言語にエンコードするwav2vec2と、単語を画像にマッピングするCLIPの2つのモデルからの埋め込みを比較した。
自然言語知覚中に記録された脳波を用いて、これらの埋め込みがリッジ回帰とコントラスト復号を用いて脳活動とどのように一致しているかを評価する。
個々のレイヤ、プログレッシブな結合、プログレッシブな和の3つの戦略をテストする。
この結果は、マルチモーダルなレイヤー認識の表現を組み合わせることで、脳が言語をどのように理解しているかを、音だけでなく経験として解読できるようになることを示唆している。
関連論文リスト
- Brain-tuned Speech Models Better Reflect Speech Processing Stages in the Brain [4.652236080354487]
自己教師型音声モデルは、音声処理において優れているが、人間の音声処理の階層構造を反映しない。
近年の研究では、人間の脳記録を用いた脳チューニングモデルにより、音声モデルのセマンティック理解が改善されている。
脳に調整されたモデルの後期層は、セマンティック言語領域との整合性において、事前訓練されたモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-04T10:59:11Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.20672677492805]
現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - BrainDreamer: Reasoning-Coherent and Controllable Image Generation from EEG Brain Signals via Language Guidance [14.003870853594972]
本稿では、新しいエンドツーエンド言語誘導型生成フレームワークBrainDreamerを紹介する。
BrainDreamerは人間の推論を模倣し、脳波(EEG)脳信号から高品質の画像を生成する。
非侵襲的な脳波データ取得によるノイズを除去する能力において,本手法は優れている。
論文 参考訳(メタデータ) (2024-09-21T05:16:31Z) - SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。