Fugu-MT 論文翻訳(概要): Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

論文の概要: Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

arxiv url: http://arxiv.org/abs/2407.11828v4
Date: Thu, 27 Mar 2025 01:13:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 14:27:25.549705
Title: Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors
Title（参考訳）: Vibravox:ボディ伝導型音声センサを用いたフランス語音声のデータセット
Authors: Julien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu,
Abstract要約: Vibravoxは、General Data Protection Regulationに準拠したデータセットである。 Vibravox corpusには188人の参加者による音声サンプルと生理的音のセンサーが45時間含まれている。音声認識や話者検証など,様々な音声関連課題について一連の実験を行った。
参考スコア（独自算出の注目度）: 0.2010294990327175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vibravox is a dataset compliant with the General Data Protection Regulation (GDPR) containing audio recordings using five different body-conduction audio sensors: two in-ear microphones, two bone conduction vibration pickups, and a laryngophone. The dataset also includes audio data from an airborne microphone used as a reference. The Vibravox corpus contains 45 hours per sensor of speech samples and physiological sounds recorded by 188 participants under different acoustic conditions imposed by a high order ambisonics 3D spatializer. Annotations about the recording conditions and linguistic transcriptions are also included in the corpus. We conducted a series of experiments on various speech-related tasks, including speech recognition, speech enhancement, and speaker verification. These experiments were carried out using state-of-the-art models to evaluate and compare their performances on signals captured by the different audio sensors offered by the Vibravox dataset, with the aim of gaining a better grasp of their individual characteristics.
Abstract（参考訳）: Vibravoxは、一般データ保護規則(GDPR)に準拠したデータセットで、5つの異なるボディ伝導型オーディオセンサー(内耳マイク2つ、骨伝導型振動ピックアップ2つ、喉頭電話1つ)によるオーディオ記録を含んでいる。データセットには、リファレンスとして使用される空中マイクからのオーディオデータも含まれている。ビブラヴォックスコーパスは、高次アンビソニクス3D空間化装置によって課せられる異なる音響条件下で188人の被験者が記録した音声サンプルと生理音の1センサあたり45時間を含む。コーパスには、記録条件や言語転写に関する注釈も含まれている。音声認識,音声強調,話者検証など,様々な音声関連課題について一連の実験を行った。これらの実験は、最先端のモデルを用いて、Vibravoxデータセットによって提供される異なるオーディオセンサによって取得された信号の性能を評価し、比較し、個々の特性をよりよく把握することを目的とした。

関連論文リスト

In-the-wild Audio Spatialization with Flexible Text-guided Localization [37.60344400859993]
没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-01T09:41:56Z)
The iNaturalist Sounds Dataset [60.157076990024606]
iNatSoundsは、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000人以上のレコーダーが貢献している。このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類からの音を包含し、iNaturalistに提出された観察から得られたオーディオおよび種名を含む。我々は、次世代の公的なエンゲージメントアプリケーションを支えるこのデータに基づいて訓練されたモデルを構想し、大規模なオーディオコレクションの処理において生物学者、生態学者、土地利用管理者を支援する。
論文参考訳（メタデータ） (2025-05-31T02:07:37Z)
DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model [48.57556892287629]
本稿では,DualSpec というテキスト・音声生成フレームワークを提案する。まず、音響イベントオーディオから潜時音響表現を抽出するための変分オートエンコーダ(VAE)を訓練する。最後に、空間音響生成のための潜在音響表現とテキスト特徴から拡散モデルを訓練する。
論文参考訳（メタデータ） (2025-02-26T09:01:59Z)
SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。 SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文参考訳（メタデータ） (2024-09-18T23:17:02Z)
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文参考訳（メタデータ） (2024-06-10T11:28:29Z)
REWIND Dataset: Privacy-preserving Speaking Status Segmentation from Multimodal Body Movement Signals in the Wild [14.5263556841263]
プロフェッショナルなネットワークイベントにおいて,33人の被験者による高品質な個人音声記録を備えた,初めて公開されているマルチモーダルデータセットを提示する。いずれの場合も、従来のデータセットでは利用できない時間分解能である音声から抽出した20Hzのバイナリ音声のステータス信号を予測する。
論文参考訳（メタデータ） (2024-03-02T15:14:58Z)
Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文参考訳（メタデータ） (2023-08-08T13:46:55Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
EPIC-SOUNDSには78.4kの分類された音声イベントとアクションがあり、44のクラスと39.2kの非分類セグメントに分散している。我々は、オーディオのみの手法とオーディオ視覚的手法の両方において、データセット上で最先端の音声認識および検出モデルを訓練し、評価する。
論文参考訳（メタデータ） (2023-02-01T18:19:37Z)
Self-supervised speech unit discovery from articulatory and acoustic features using VQ-VAE [2.771610203951056]
本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。実験は英語とフランス語の3つの異なるコーパスで行われた。
論文参考訳（メタデータ） (2022-06-17T14:04:24Z)
Deep Learning-based automated classification of Chinese Speech Sound Disorders [3.4314628858361496]
本稿では,コンピュータを用いた子どもの発話障害の診断・分類を支援するために,音響データを解析するシステムについて述べる。この分析は、中国の4つの異なるタイプのミスコンストラクションを特定し、分類することに集中した。
論文参考訳（メタデータ） (2022-05-24T03:23:22Z)
Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文参考訳（メタデータ） (2021-12-08T17:50:26Z)
Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-04-13T13:07:33Z)
SONYC-UST-V2: An Urban Sound Tagging Dataset with Spatiotemporal Context [32.84541094143274]
時空間情報を用いた都市音のタグ付けのためのデータセットを提案する。このデータセットは、メタデータが都市サウンドタグの予測にどのように役立つかを調査する機会を提供する。
論文参考訳（メタデータ） (2020-09-11T01:19:12Z)
PhyAAt: Physiology of Auditory Attention to Speech Dataset [0.5976833843615385]
自然発話に対する聴覚的注意は複雑な脳プロセスである。本稿では,聴覚的注意実験から自然音声への生理的信号のデータセットについて述べる。
論文参考訳（メタデータ） (2020-05-23T17:55:18Z)
Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文参考訳（メタデータ） (2020-01-30T18:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。