論文の概要: Spoken Language Identification with Pre-trained Models and Margin Loss
- arxiv url: http://arxiv.org/abs/2605.01905v1
- Date: Sun, 03 May 2026 14:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.987141
- Title: Spoken Language Identification with Pre-trained Models and Margin Loss
- Title(参考訳): 事前学習モデルとマージン損失を用いた音声言語識別
- Authors: Zhihua Fang, Liang He, Weiwu Jiang,
- Abstract要約: 本稿では,TydyLang Challenge 2026で提案されている話者制御音声言語識別タスクについて,事前学習モデルに基づく言語識別手法を提案する。
提案手法は,事前学習したECAPA-TDNNを特徴エンコーダとして採用し,言語表現の識別能力を高めるためにマージンに基づく損失を取り入れる。
- 参考スコア(独自算出の注目度): 9.800066159312749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For the speaker-controlled spoken language identification task proposed in the TidyLang Challenge 2026, this paper proposes a language identification method based on pre-trained models and margin-based losses. The proposed method adopts a pre-trained ECAPA-TDNN as the feature encoder and incorporates margin-based losses to enhance the discriminative ability of language representations, thereby improving inter-class separability and reducing the interference of non-linguistic factors such as speaker characteristics. Experimental results on the Tidy-X dataset show that the proposed method achieves 85.95% macro accuracy and 90.96% micro accuracy on the language identification task and 17.08% equal error rate (EER) on the verification task. Compared with the official baseline, the macro accuracy improves by 45.7%, the micro accuracy improves by 15.2%, and the EER is reduced by approximately 50.8%, demonstrating the effectiveness of the proposed method. The code will be released at https://github.com/PunkMale/TidyLang2026.
- Abstract(参考訳): 本稿では,TydyLang Challenge 2026で提案されている話者制御音声言語識別タスクについて,事前学習モデルに基づく言語識別手法を提案する。
提案手法は,事前学習したECAPA-TDNNを特徴エンコーダとして採用し,言語表現の識別能力を高めるためにマージンに基づく損失を取り入れ,クラス間分離性を改善し,話者特性などの非言語的要因の干渉を低減する。
Tidy-Xデータセットを用いた実験結果から,言語識別タスクでは85.95%のマクロ精度,90.96%のマイクロ精度,検証タスクでは17.08%のエラーレート(EER)が得られた。
公式ベースラインと比較してマクロ精度は45.7%向上し、マイクロ精度は15.2%向上し、EERは約50.8%削減され、提案手法の有効性が示された。
コードはhttps://github.com/PunkMale/TidyLang2026でリリースされる。
関連論文リスト
- Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文 参考訳(メタデータ) (2025-10-16T12:23:13Z) - Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。
残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。
実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文 参考訳(メタデータ) (2024-12-14T15:11:42Z) - Grammatical Error Correction for Low-Resource Languages: The Case of Zarma [8.40484790921164]
文法的誤り訂正は、テキストの品質と可読性を改善することを目的としている。
西アフリカで500万人以上が話していたGEC for Zarmaについて検討する。
ルールベース手法,機械翻訳(MT)モデル,大規模言語モデルという3つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-10-20T23:51:36Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Benchmarks Underestimate the Readiness of Multi-lingual Dialogue Agents [39.92509218078164]
テキスト内学習が多言語TODに取り組むのに十分であることを示す。
我々は、中国語、英語、フランス語、韓国語、ヒンディー語、およびコードミキシングされたヒンディー語に12のドメインを持つ多言語TODデータセットX-RiSAWOZのアプローチを検証した。
論文 参考訳(メタデータ) (2024-05-28T05:33:13Z) - DPCSpell: A Transformer-based Detector-Purificator-Corrector Framework for Spelling Error Correction of Bangla and Resource Scarce Indic Languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。