論文の概要: Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors
- arxiv url: http://arxiv.org/abs/2407.11828v1
- Date: Tue, 16 Jul 2024 15:16:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 14:13:22.162085
- Title: Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors
- Title(参考訳): Vibravox:ボディ伝導型音声センサを用いたフランス語音声のデータセット
- Authors: Julien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu,
- Abstract要約: Vibravox corpusには38時間の音声サンプルと188人の参加者が異なる音環境下で記録した生理的音が含まれている。
音声認識や話者検証など,様々な音声関連課題について一連の実験を行った。
- 参考スコア(独自算出の注目度): 0.2010294990327175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vibravox is a dataset compliant with the General Data Protection Regulation (GDPR) containing audio recordings using five different body-conduction audio sensors : two in-ear microphones, two bone conduction vibration pickups and a laryngophone. The data set also includes audio data from an airborne microphone used as a reference. The Vibravox corpus contains 38 hours of speech samples and physiological sounds recorded by 188 participants under different acoustic conditions imposed by an high order ambisonics 3D spatializer. Annotations about the recording conditions and linguistic transcriptions are also included in the corpus. We conducted a series of experiments on various speech-related tasks, including speech recognition, speech enhancement and speaker verification. These experiments were carried out using state-of-the-art models to evaluate and compare their performances on signals captured by the different audio sensors offered by the Vibravox dataset, with the aim of gaining a better grasp of their individual characteristics.
- Abstract(参考訳): VibravoxはGeneral Data Protection Regulation (GDPR)に準拠したデータセットで、5つの異なる体伝導型オーディオセンサ(内耳マイク2つ、骨伝導型振動ピックアップ2つ、喉頭音)を用いたオーディオ記録を含んでいる。
データセットには、基準として使用される空中マイクからのオーディオデータも含まれている。
ヴィブラヴォックスコーパスは、高次アンビソニクス3D空間化装置によって課せられる異なる音響条件下で188人の被験者が記録した38時間の音声サンプルと生理音を含む。
コーパスには、記録条件や言語転写に関する注釈も含まれている。
音声認識,音声強調,話者検証など,様々な音声関連課題について一連の実験を行った。
これらの実験は、最先端のモデルを用いて、Vibravoxデータセットによって提供される異なるオーディオセンサによって取得された信号の性能を評価し、比較し、個々の特性をよりよく把握することを目的とした。
関連論文リスト
- SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - REWIND Dataset: Privacy-preserving Speaking Status Segmentation from
Multimodal Body Movement Signals in the Wild [14.5263556841263]
プロフェッショナルなネットワークイベントにおいて,33人の被験者による高品質な個人音声記録を備えた,初めて公開されているマルチモーダルデータセットを提示する。
いずれの場合も、従来のデータセットでは利用できない時間分解能である音声から抽出した20Hzのバイナリ音声のステータス信号を予測する。
論文 参考訳(メタデータ) (2024-03-02T15:14:58Z) - Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Self-supervised speech unit discovery from articulatory and acoustic
features using VQ-VAE [2.771610203951056]
本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。
我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。
実験は英語とフランス語の3つの異なるコーパスで行われた。
論文 参考訳(メタデータ) (2022-06-17T14:04:24Z) - Deep Learning-based automated classification of Chinese Speech Sound
Disorders [3.4314628858361496]
本稿では,コンピュータを用いた子どもの発話障害の診断・分類を支援するために,音響データを解析するシステムについて述べる。
この分析は、中国の4つの異なるタイプのミスコンストラクションを特定し、分類することに集中した。
論文 参考訳(メタデータ) (2022-05-24T03:23:22Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。