論文の概要: MEG-MASC: a high-quality magneto-encephalography dataset for evaluating
natural speech processing
- arxiv url: http://arxiv.org/abs/2208.11488v1
- Date: Tue, 26 Jul 2022 19:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-28 22:35:17.628342
- Title: MEG-MASC: a high-quality magneto-encephalography dataset for evaluating
natural speech processing
- Title(参考訳): MEG-MASC:自然言語処理評価のための高品質脳磁図データセット
- Authors: Laura Gwilliams, Graham Flick, Alec Marantz, Liina Pylkkanen, David
Poeppel and Jean-Remi King
- Abstract要約: MEG-MASC"データセットは、27人の英語話者の生磁気脳波(MEG)記録のキュレートされたセットを提供する。
記録のメタデータに各単語と音素のオンセットとオフセットをタイムスタンプし、BIDS(Brain Imaging Data Structure)に基づいてデータセットを整理する。
このデータ収集は、音声に対する時間分解脳反応の分析を大規模に符号化および復号化するための適切なベンチマークを提供する。
- 参考スコア(独自算出の注目度): 1.345669927504424
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The "MEG-MASC" dataset provides a curated set of raw magnetoencephalography
(MEG) recordings of 27 English speakers who listened to two hours of
naturalistic stories. Each participant performed two identical sessions,
involving listening to four fictional stories from the Manually Annotated
Sub-Corpus (MASC) intermixed with random word lists and comprehension
questions. We time-stamp the onset and offset of each word and phoneme in the
metadata of the recording, and organize the dataset according to the 'Brain
Imaging Data Structure' (BIDS). This data collection provides a suitable
benchmark to large-scale encoding and decoding analyses of temporally-resolved
brain responses to speech. We provide the Python code to replicate several
validations analyses of the MEG evoked related fields such as the temporal
decoding of phonetic features and word frequency. All code and MEG, audio and
text data are publicly available to keep with best practices in transparent and
reproducible research.
- Abstract(参考訳): meg-masc」データセットは、2時間の自然話を聞く27人の英語話者の生脳磁図(meg)記録のキュレーションセットを提供する。
各参加者は2つの同一のセッションを行い、手作業で注釈付きサブコーパス(masc)から4つの架空のストーリーを聞き、ランダムな単語リストと理解質問を混ぜ合わせた。
記録のメタデータにおいて、各単語と音素の開始とオフセットをタイムスタンプし、そのデータセットを「脳イメージングデータ構造」(bids)に従って整理する。
このデータ収集は、音声に対する時間分解脳反応の大規模符号化と復号解析に適したベンチマークを提供する。
我々は,音韻特徴の時間的復号化や単語頻度などのMEG誘発関連分野の検証分析を再現するPythonコードを提供する。
すべてのコードとmeg、オーディオとテキストデータは、透明で再現可能な研究においてベストプラクティスを維持するために公開されています。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems [0.0]
本稿では,ロシア語テキストの自動アクセント化と音韻転写のためのルールベースシステムの概要について述べる。
開発したシステムの2つの部分、アクセントと文字起こしは、入力句の正しい音韻表現を実現するために異なるアプローチを用いている。
開発ツールキットはPython言語で書かれており、興味のある研究者はGitHubからアクセスできる。
論文 参考訳(メタデータ) (2024-10-03T14:43:43Z) - A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。
提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。
fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文 参考訳(メタデータ) (2024-09-29T14:03:39Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Open Source MagicData-RAMC: A Rich Annotated Mandarin
Conversational(RAMC) Speech Dataset [51.75617364782418]
本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。
MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
論文 参考訳(メタデータ) (2022-03-31T07:01:06Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。