論文の概要: A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions
- arxiv url: http://arxiv.org/abs/2506.04077v1
- Date: Wed, 04 Jun 2025 15:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.424458
- Title: A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions
- Title(参考訳): オピニオン表現の自動評価のための新しいデータ拡張手法
- Authors: Chung-Chun Wang, Jhen-Ke Lin, Hao-Chien Lu, Hong-Yun Lin, Berlin Chen,
- Abstract要約: 与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
- 参考スコア(独自算出の注目度): 3.505838221203969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated speaking assessment (ASA) on opinion expressions is often hampered by the scarcity of labeled recordings, which restricts prompt diversity and undermines scoring reliability. To address this challenge, we propose a novel training paradigm that leverages a large language models (LLM) to generate diverse responses of a given proficiency level, converts responses into synthesized speech via speaker-aware text-to-speech synthesis, and employs a dynamic importance loss to adaptively reweight training instances based on feature distribution differences between synthesized and real speech. Subsequently, a multimodal large language model integrates aligned textual features with speech signals to predict proficiency scores directly. Experiments conducted on the LTTC dataset show that our approach outperforms methods relying on real data or conventional augmentation, effectively mitigating low-resource constraints and enabling ASA on opinion expressions with cross-modal information.
- Abstract(参考訳): 意見表現に基づく自動発話評価(ASA)は、しばしばラベル付き録音の不足によって妨げられ、即時的な多様性を制限し、スコアリングの信頼性を損なう。
この課題に対処するために,大規模言語モデル(LLM)を活用して与えられた習熟度レベルの多様な応答を生成し,応答を話者対応のテキスト音声合成により合成音声に変換し,合成音声と実音声の特徴分布の違いに基づいて動的に重み付けされた訓練インスタンスに動的に重み付けする訓練パラダイムを提案する。
その後、多モーダル大規模言語モデルでは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
LTTCデータセットを用いて行った実験により,本手法は実データや従来の拡張手法よりも優れ,低リソース制約を効果的に緩和し,モダル情報を用いた世論表現のASAを可能にした。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Conversational speech recognition leveraging effective fusion methods
for cross-utterance language modeling [12.153618111267514]
音声認識における言語モデリングのための異種会話履歴融合手法を提案する。
現在の発話の音響埋め込みとそれに対応する会話履歴のセマンティックコンテンツとを融合して利用する新しい音声融合機構が導入された。
我々は,ASR N-best仮説再構成タスクを予測問題として,象徴的な事前学習型LMであるBERTを活用する。
論文 参考訳(メタデータ) (2021-11-05T09:07:23Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。