Fugu-MT 論文翻訳(概要): Transducer-based language embedding for spoken language identification

論文の概要: Transducer-based language embedding for spoken language identification

arxiv url: http://arxiv.org/abs/2204.03888v1
Date: Fri, 8 Apr 2022 07:23:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-11 13:37:09.493686
Title: Transducer-based language embedding for spoken language identification
Title（参考訳）: 音声言語識別のためのトランスデューサに基づく言語埋め込み
Authors: Peng Shen, Xugang Lu, Hisashi Kawai
Abstract要約: 音響的特徴と言語的特徴は,音声言語識別作業において重要な手がかりである。近年の先進的なLIDシステムは、言語的特徴符号化を欠いた音響的特徴を主に用いている。本稿では,RNNトランスデューサモデルを言語埋め込みフレームワークに統合することにより,LIDタスクのための新しいトランスデューサベースの言語埋め込み手法を提案する。
参考スコア（独自算出の注目度）: 38.60303603000269
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The acoustic and linguistic features are important cues for the spoken language identification (LID) task. Recent advanced LID systems mainly use acoustic features that lack the usage of explicit linguistic feature encoding. In this paper, we propose a novel transducer-based language embedding approach for LID tasks by integrating an RNN transducer model into a language embedding framework. Benefiting from the advantages of the RNN transducer's linguistic representation capability, the proposed method can exploit both phonetically-aware acoustic features and explicit linguistic features for LID tasks. Experiments were carried out on the large-scale multilingual LibriSpeech and VoxLingua107 datasets. Experimental results showed the proposed method significantly improves the performance on LID tasks with 12% to 59% and 16% to 24% relative improvement on in-domain and cross-domain datasets, respectively.
Abstract（参考訳）: 音声と言語の特徴は,音声言語識別(LID)タスクにおいて重要な手がかりである。近年のLIDシステムは, 言語的特徴符号化を欠いた音響的特徴を主に用いている。本稿では,RNNトランスデューサモデルを言語埋め込みフレームワークに統合することにより,LIDタスクのための新しいトランスデューサベースの言語埋め込み手法を提案する。提案手法は, RNNトランスデューサの言語表現能力の利点を活かして, LIDタスクの音響的特徴と明示的言語的特徴の両方を活用することができる。大規模な多言語LibriSpeechとVoxLingua107データセットで実験を行った。実験の結果, 提案手法は, LIDタスクの性能を12%から59%, 16%から24%で改善することがわかった。

関連論文リスト

LangGPS: Language Separability Guided Data Pre-Selection for Joint Multilingual Instruction Tuning [49.22807995935406]
大規模言語モデル(LLM)の多言語命令追従能力と下流性能を改善するための多言語命令チューニングは広く採用されている手法である。既存の選択法は、しばしばテキストの品質、多様性、タスク関連性といった特徴に基づいており、典型的には多言語データの固有の言語構造を見落としている。言語分離性によって導かれる軽量な2段階事前選択フレームワークであるLangGPSを提案する。
論文参考訳（メタデータ） (2025-11-13T12:02:32Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文参考訳（メタデータ） (2024-09-17T08:36:45Z)
Performance Improvement of Language-Queried Audio Source Separation Based on Caption Augmentation From Large Language Models for DCASE Challenge 2024 Task 9 [4.328586290529485]
本稿では,言語クエリ音声ソース分離(LASS)タスクに適用した,プロンプトエンジニアリングに基づくテキスト拡張手法を提案する。学習データセットの各文に対応する複数の字幕を生成するために,大規模言語モデル (LLM) を用いた。
論文参考訳（メタデータ） (2024-06-17T06:19:14Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
Generative linguistic representation for spoken language identification [17.9575874225144]
本稿では,Whisperモデルからデコーダベースのネットワークを利用して言語的特徴を抽出する方法について検討する。言語埋め込み法とLID出力の直接最適化に焦点を当てた2つの戦略を考案した。我々は,MLS,VoxLingua107,CommonVoiceといった大規模多言語データセットを用いて,我々のアプローチをテストする実験を行った。
論文参考訳（メタデータ） (2023-12-18T06:40:24Z)
Semantic enrichment towards efficient speech representations [9.30840529284715]
本研究では,SAMU-XLSRモデルのドメイン内セマンティックエンリッチメントについて検討する。我々は、低リソース言語移植性のために、同じドメインのフランス語とイタリア語のベンチマークを使用することの利点を示す。
論文参考訳（メタデータ） (2023-07-03T19:52:56Z)
Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文参考訳（メタデータ） (2023-06-07T12:14:16Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
Is Attention always needed? A Case Study on Language Identification from Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。 CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。 LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文参考訳（メタデータ） (2021-10-05T16:38:57Z)
Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文参考訳（メタデータ） (2020-02-19T12:01:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。