Fugu-MT 論文翻訳(概要): TG-ASR: Translation-Guided Learning with Parallel Gated Cross Attention for Low-Resource Automatic Speech Recognition

論文の概要: TG-ASR: Translation-Guided Learning with Parallel Gated Cross Attention for Low-Resource Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2602.22039v1
Date: Wed, 25 Feb 2026 15:47:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.889968
Title: TG-ASR: Translation-Guided Learning with Parallel Gated Cross Attention for Low-Resource Automatic Speech Recognition
Title（参考訳）: TG-ASR:低音源自動音声認識のための並列ゲートクロスアテンションを用いた翻訳誘導学習
Authors: Cheng-Yeh Yang, Chien-Chun Wang, Li-Wei Chen, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen,
Abstract要約: 台湾の北紀園ドラマ音声認識におけるTG-ASRは、多言語翻訳埋め込みを用いて認識性能を向上させる。台湾のホッキエンドラマの30時間コーパスであるYT-THDCについて,マンダリン字幕と台湾のホッキエン文字を手作業で検証した。
参考スコア（独自算出の注目度）: 26.398499487395295
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-resource automatic speech recognition (ASR) continues to pose significant challenges, primarily due to the limited availability of transcribed data for numerous languages. While a wealth of spoken content is accessible in television dramas and online videos, Taiwanese Hokkien exemplifies this issue, with transcriptions often being scarce and the majority of available subtitles provided only in Mandarin. To address this deficiency, we introduce TG-ASR for Taiwanese Hokkien drama speech recognition, a translation-guided ASR framework that utilizes multilingual translation embeddings to enhance recognition performance in low-resource environments. The framework is centered around the parallel gated cross-attention (PGCA) mechanism, which adaptively integrates embeddings from various auxiliary languages into the ASR decoder. This mechanism facilitates robust cross-linguistic semantic guidance while ensuring stable optimization and minimizing interference between languages. To support ongoing research initiatives, we present YT-THDC, a 30-hour corpus of Taiwanese Hokkien drama speech with aligned Mandarin subtitles and manually verified Taiwanese Hokkien transcriptions. Comprehensive experiments and analyses identify the auxiliary languages that most effectively enhance ASR performance, achieving a 14.77% relative reduction in character error rate and demonstrating the efficacy of translation-guided learning for underrepresented languages in practical applications.
Abstract（参考訳）: 低リソース自動音声認識 (ASR) は、主に多くの言語で書き起こされたデータに制限があるため、大きな課題を呈し続けている。テレビドラマやオンラインビデオでは豊富な音声コンテンツが利用できるが、台湾のホッキエンはこの問題を例証している。台湾のホッキエンドラマ音声認識におけるTG-ASRは多言語翻訳を組み込んで低リソース環境における音声認識性能を向上させるための翻訳誘導型ASRフレームワークである。このフレームワークは、様々な補助言語からの埋め込みをASRデコーダに適応的に統合する並列ゲート・クロスアテンション(PGCA)機構を中心にしている。このメカニズムは、安定な最適化と言語間の干渉の最小化を確保しつつ、堅牢な言語間セマンティックガイダンスを促進する。現在進行中の研究活動を支援するため,台湾のホキエンドラマの30時間コーパスであるYT-THDCを,マンダリン字幕と台湾のホキエン文字を手作業で検証した。総合的な実験と分析により、ASRのパフォーマンスを最も効果的に向上する補助言語を特定し、文字誤り率を14.77%削減し、実践的な応用における未表現言語に対する翻訳誘導学習の有効性を実証した。

関連論文リスト

Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition [12.692166506908803]
低遅延タイ語音声認識のための115MパラメータFastConformer-TransducerモデルであるTyphoon ASR Real-timeを提案する。我々のコンパクトモデルでは,Whisper Large-v3に比べて計算コストが45倍削減され,精度は同等である。タイ語 ASR の課題に対処するため,タイ語で確立された慣行に従って,ゴールドスタンダードの人間ラベル付きデータセットである Typhoon ASR Benchmark をリリースする。
論文参考訳（メタデータ） (2026-01-19T13:28:17Z)
SITA: Learning Speaker-Invariant and Tone-Aware Speech Representations for Low-Resource Tonal Languages [11.655315357810371]
SITAは、事前訓練されたwav2vecスタイルのエンコーダに対して、話者不変性とトーン認識を強制する軽量な適応レシピである。音色を効果的に表現できない多言語エンコーダであるHmongを主眼として評価した。
論文参考訳（メタデータ） (2026-01-14T00:42:27Z)
CLiFT-ASR: A Cross-Lingual Fine-Tuning Framework for Low-Resource Taiwanese Hokkien Speech Recognition [12.323666705980672]
CLiFT-ASRは台湾のホッキエンにおける音声認識のための言語横断的な微調整フレームワークである。最初は音素の太ロアノテーションから音響と音調の表現を学び、次に漢文字の語彙と構文をキャプチャする。 TAT-MOEコーパスの実験は、CLiFT-ASRが文字誤り率を24.88%減少させることを示した。
論文参考訳（メタデータ） (2025-11-10T09:03:30Z)
Towards Unsupervised Speech Recognition at the Syllable-Level [95.54031547995874]
マスク付き言語モデリングに基づく音節レベルのUASRフレームワークを提案する。我々は,従来の手法では特に難しい言語であるマンダリンを効果的に一般化する。
論文参考訳（メタデータ） (2025-10-04T02:56:33Z)
Refining Transcripts With TV Subtitles by Prompt-Based Weakly Supervised Training of ASR [15.311893064721858]
本研究では、弱教師付き(WS)自動音声認識(ASR)フレームワークにおいて、テレビ字幕を使用するための新しい手法を提案する。本手法では,字幕を直接監視信号として使用するのではなく,文脈に富むプロンプトとして再認識する。生成された擬似転写文字が主要なターゲットとなり、字幕は反復的洗練のための導出手段として機能する。
論文参考訳（メタデータ） (2025-09-01T11:43:07Z)
Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文参考訳（メタデータ） (2025-03-13T15:11:28Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文参考訳（メタデータ） (2022-11-05T04:03:55Z)
Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文参考訳（メタデータ） (2021-11-02T01:55:17Z)
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。 LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文参考訳（メタデータ） (2020-10-27T13:12:17Z)
How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文参考訳（メタデータ） (2020-10-22T23:07:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。