論文の概要: SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors
- arxiv url: http://arxiv.org/abs/2503.16578v1
- Date: Thu, 20 Mar 2025 11:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:55:47.889554
- Title: SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors
- Title(参考訳): SeniorTalk:中国の会話データセット
- Authors: Yang Chen, Hui Wang, Shiyao Wang, Junyang Chen, Jiabei He, Jiaming Zhou, Xi Yang, Yequan Wang, Yonghua Lin, Yong Qin,
- Abstract要約: SeniorTalkは、注意深い注釈付き中国語音声対話データセットである。
このデータセットには、202人の参加者を含む101人の自然な会話から55.53時間のスピーチが含まれている。
話者検証,話者ダイアリゼーション,音声認識,音声編集タスクについて実験を行った。
- 参考スコア(独自算出の注目度): 23.837811649327094
- License:
- Abstract: While voice technologies increasingly serve aging populations, current systems exhibit significant performance gaps due to inadequate training data capturing elderly-specific vocal characteristics like presbyphonia and dialectal variations. The limited data available on super-aged individuals in existing elderly speech datasets, coupled with overly simple recording styles and annotation dimensions, exacerbates this issue. To address the critical scarcity of speech data from individuals aged 75 and above, we introduce SeniorTalk, a carefully annotated Chinese spoken dialogue dataset. This dataset contains 55.53 hours of speech from 101 natural conversations involving 202 participants, ensuring a strategic balance across gender, region, and age. Through detailed annotation across multiple dimensions, it can support a wide range of speech tasks. We perform extensive experiments on speaker verification, speaker diarization, speech recognition, and speech editing tasks, offering crucial insights for the development of speech technologies targeting this age group.
- Abstract(参考訳): 音声技術は高齢化にますます役立っているが、現在のシステムでは、プレズビロニアや方言の変化といった高齢者特有の声の特徴を捉える訓練データが不十分なため、大きなパフォーマンスのギャップが生じる。
既存の高齢者の音声データセットにおける超高齢者の限られたデータと、過度に単純な記録スタイルとアノテーションの次元が組み合わさって、この問題が悪化する。
75歳以上の個人による音声データの欠如に対処するため,注意深い注釈付き中国語音声対話データセットであるSeniorTalkを紹介した。
このデータセットには、202人の参加者を含む101人の自然な会話から55.53時間のスピーチが含まれており、性別、地域、年齢の戦略的バランスが確保されている。
複数の次元にわたる詳細なアノテーションによって、幅広い音声タスクをサポートすることができる。
我々は、話者検証、話者ダイアリゼーション、音声認識、音声編集タスクに関する広範な実験を行い、この年齢層を対象とした音声技術の発展に重要な洞察を提供する。
関連論文リスト
- SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description [19.064845530513285]
本稿では,表現的かつ鮮明な人間の言語記述で単語中の音声クリップに注釈を付ける,解釈のための自動音声アノテーションシステムを提案する。
本システムでは,自然言語記述の調整による音声スタイルの深い理解を提供する。
約2000時間の音声データを含み、200万以上の音声クリップを含む、高度に記述的な自然言語スタイルのプロンプトによって区別されている。
論文 参考訳(メタデータ) (2024-08-24T15:36:08Z) - Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。
これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。
この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文 参考訳(メタデータ) (2024-07-02T03:22:41Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Leveraging Speaker Embeddings with Adversarial Multi-task Learning for
Age Group Classification [0.0]
本研究では, 対人多タスク学習から派生した話者識別型埋め込みを用いて, 年齢層における特徴の整合とドメイン差の低減を図る。
VoxCeleb Enrichment データセットの実験結果から,多目的シナリオにおける適応型対向ネットワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-01-22T05:01:13Z) - Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset [77.99182201815763]
本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
論文 参考訳(メタデータ) (2022-11-14T12:39:41Z) - Data-augmented cross-lingual synthesis in a teacher-student framework [3.2548794659022398]
言語間合成は、話者が他の言語で流動的な合成音声を生成させるタスクである。
これまでの研究では、多くのモデルでは一般化能力が不十分であることが示されている。
本稿では,教師/学生のパラダイムを言語間合成に適用することを提案する。
論文 参考訳(メタデータ) (2022-03-31T20:01:32Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。