Fugu-MT 論文翻訳(概要): Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection

論文の概要: Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection

arxiv url: http://arxiv.org/abs/2409.10985v1
Date: Tue, 17 Sep 2024 08:36:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 17:28:59.443012
Title: Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection
Title（参考訳）: ブートストラップデータ選択による音声音声翻訳によるアンダーソース言語における音声感情認識の改善
Authors: Hsi-Che Lin, Yi-Cheng Lin, Huang-Cheng Chou, Hung-yi Lee,
Abstract要約: 音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
参考スコア（独自算出の注目度）: 49.27067541740956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech Emotion Recognition (SER) is a crucial component in developing general-purpose AI agents capable of natural human-computer interaction. However, building robust multilingual SER systems remains challenging due to the scarcity of labeled data in languages other than English and Chinese. In this paper, we propose an approach to enhance SER performance in low SER resource languages by leveraging data from high-resource languages. Specifically, we employ expressive Speech-to-Speech translation (S2ST) combined with a novel bootstrapping data selection pipeline to generate labeled data in the target language. Extensive experiments demonstrate that our method is both effective and generalizable across different upstream models and languages. Our results suggest that this approach can facilitate the development of more scalable and robust multilingual SER systems.
Abstract（参考訳）: 音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。しかし、英語や中国語以外の言語ではラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。具体的には、表現型音声音声翻訳(S2ST)と新しいブートストラップデータ選択パイプラインを組み合わせて、対象言語でラベル付きデータを生成する。大規模な実験により,本手法は様々な上流モデルや言語にまたがって有効かつ一般化可能であることが示された。提案手法により,よりスケーラブルで堅牢な多言語SERシステムの開発が容易になる可能性が示唆された。

関連論文リスト

Bridging Language Gaps: Enhancing Few-Shot Language Adaptation [32.157041759856]
言語資源の格差は、多言語NLPにおける課題となっている。高リソース言語は広範なデータから恩恵を受ける一方、低リソース言語は効果的なトレーニングに十分なデータを持っていない。我々のContrastive Language Alignment with Prompting (CoLAP) 法は、コントラスト学習と言語間表現を統合することで、このギャップに対処する。
論文参考訳（メタデータ） (2025-08-26T22:49:17Z)
Large Language Model Data Generation for Enhanced Intent Recognition in German Speech [14.788624194380825]
音声コマンドのインテント認識(IR)は人工知能(AI)アシスタントシステムに不可欠である。本稿では,高齢者のドイツ語音声を微調整したWhisper ASRモデルを組み合わせた新しい手法を提案する。合成音声をテキスト音声モデルで生成し、広範囲なクロスデータセットテストを行う。
論文参考訳（メタデータ） (2025-08-08T12:54:09Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文参考訳（メタデータ） (2024-09-02T12:53:01Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-10-17T12:15:57Z)
A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文参考訳（メタデータ） (2022-02-25T09:31:40Z)
Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文参考訳（メタデータ） (2021-11-02T01:55:17Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
Bootstrap an end-to-end ASR system by multilingual training, transfer learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文参考訳（メタデータ） (2020-11-25T13:11:32Z)
Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文参考訳（メタデータ） (2020-04-29T14:27:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。