Fugu-MT 論文翻訳(概要): VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

論文の概要: VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

arxiv url: http://arxiv.org/abs/2603.01270v2
Date: Thu, 05 Mar 2026 11:31:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 15:25:24.166421
Title: VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling
Title（参考訳）: VoxKnesset: 老化話者モデリングのための大規模縦型ヘブライ語音声データセット
Authors: Yanir Marmor, Arad Zulti, David Krongauz, Adam Gabet, Yoad Snapir, Yair Lifshitz, Eran Segal,
Abstract要約: VoxKnessetは2009-2025年のヘブライ議会演説の2300時間のオープンアクセスデータセットである。年齢予測と長手条件下での話者検証に現代音声の埋め込みをベンチマークする。
参考スコア（独自算出の注目度）: 0.6945826921707353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech processing systems face a fundamental challenge: the human voice changes with age, yet few datasets support rigorous longitudinal evaluation. We introduce VoxKnesset, an open-access dataset of ~2,300 hours of Hebrew parliamentary speech spanning 2009-2025, comprising 393 speakers with recording spans of up to 15 years. Each segment includes aligned transcripts and verified demographic metadata from official parliamentary records. We benchmark modern speech embeddings (WavLM-Large, ECAPA-TDNN, Wav2Vec2-XLSR-1B) on age prediction and speaker verification under longitudinal conditions. Speaker verification EER rises from 2.15\% to 4.58\% over 15 years for the strongest model, and cross-sectionally trained age regressors fail to capture within-speaker aging, while longitudinally trained models recover a meaningful temporal signal. We publicly release the dataset and pipeline to support aging-robust speech systems and Hebrew speech processing.
Abstract（参考訳）: 音声処理システムは、年齢とともに人間の声が変化するという根本的な課題に直面しているが、厳密な縦断評価をサポートするデータセットは少ない。 2009-2025年のヘブライ語議会演説の約2300時間のオープンアクセスデータセットであるVoxKnessetを紹介した。各セグメントには、公式の議会記録からの整列された転写文と、検証された人口統計メタデータが含まれている。我々は、年齢予測と長手条件下での話者検証について、現代の音声埋め込み(WavLM-Large, ECAPA-TDNN, Wav2Vec2-XLSR-1B)をベンチマークした。話者検証EERは最強のモデルでは15年間で2.15\%から4.58\%に上昇し、横断的に訓練された年齢回帰器はスピーカー内部の老化を捉えず、縦に訓練されたモデルは有意義な時間信号を取り戻す。我々は,老朽化した音声システムとヘブライ語処理をサポートするデータセットとパイプラインを公開している。

関連論文リスト

EuroSpeech: A Multilingual Speech Corpus [35.79691721955664]
議会記録から音声データセットを構築するためのスケーラブルなパイプラインを提案する。このパイプラインを22の欧州議会の録音に適用し、61万時間以上の一致した音声セグメントを抽出します。データセット上で既存のASRモデルを微調整した場合,平均41.8%の単語誤り率をベースラインで削減する。
論文参考訳（メタデータ） (2025-10-01T04:51:45Z)
VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin [14.375859578488456]
数年にわたって293人の話者から収集された大規模長手データセットを提示し、最長の期間は17年(約900週間)である。話者の老化現象とその高度な話者検証システムへの影響について検討し、個々の話者老化過程を分析し、年齢群や性別などの要因が話者老化研究に与える影響について検討した。
論文参考訳（メタデータ） (2025-05-27T17:16:59Z)
SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors [23.837811649327094]
SeniorTalkは、注意深い注釈付き中国語音声対話データセットである。このデータセットには、202人の参加者を含む101人の自然な会話から55.53時間のスピーチが含まれている。話者検証,話者ダイアリゼーション,音声認識,音声編集タスクについて実験を行った。
論文参考訳（メタデータ） (2025-03-20T11:31:47Z)
Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。 SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文参考訳（メタデータ） (2024-12-24T18:56:46Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。 3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文参考訳（メタデータ） (2023-05-24T17:59:05Z)
LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文参考訳（メタデータ） (2022-11-17T08:48:27Z)
ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文参考訳（メタデータ） (2022-09-06T22:48:29Z)
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech [5.521191428642322]
本稿では、ターゲット話者から15分間の音声データを用いて、高い表現力を持つTTS音声を構築する方法を提案する。現在の最先端アプローチと比較して,提案手法は音声の自然性に対して23.3%向上し,録音とのギャップを埋めることができた。
論文参考訳（メタデータ） (2021-06-24T10:52:10Z)
GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文参考訳（メタデータ） (2021-06-13T04:09:16Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。