論文の概要: Mitigating Structural Noise in Low-Resource S2TT: An Optimized Cascaded Nepali-English Pipeline with Punctuation Restoration
- arxiv url: http://arxiv.org/abs/2602.21647v2
- Date: Mon, 02 Mar 2026 12:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 15:39:03.909827
- Title: Mitigating Structural Noise in Low-Resource S2TT: An Optimized Cascaded Nepali-English Pipeline with Punctuation Restoration
- Title(参考訳): 低エネルギーS2TTにおける構造ノイズの緩和--句読解を伴う最適化されたネパール英語パイプライン
- Authors: Tangsang Chongbang, Pranesh Pyara Shrestha, Amrit Sarki, Anku Jaiswal,
- Abstract要約: 低リソース言語のための音声からテキストへの変換システムでは、構造的ノイズに悩まされることがある。
本研究では,ネパール語から英語への翻訳におけるノイズの影響を調査し,品質劣化を緩和する最適化パイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cascaded speech-to-text translation (S2TT) systems for low-resource languages can suffer from structural noise, particularly the loss of punctuation during the Automatic Speech Recognition (ASR) phase. This research investigates the impact of such noise on Nepali-to-English translation and proposes an optimized pipeline to mitigate quality degradation. We first establish highly proficient ASR and NMT components: a Wav2Vec2-XLS-R-300m model achieved a state-of-the-art 2.72% CER on OpenSLR-54, and a multi-stage fine-tuned MarianMT model reached a 28.32 BLEU score on the FLORES-200 benchmark. We empirically investigate the influence of punctuation loss, demonstrating that unpunctuated ASR output significantly degrades translation quality, causing a massive 20.7% relative BLEU drop on the FLORES benchmark. To overcome this, we propose and evaluate an intermediate Punctuation Restoration Module (PRM). The final S2TT pipeline was tested across three configurations on a custom dataset. The optimal configuration, which applied the PRM directly to ASR output, achieved a 4.90 BLEU point gain over the direct ASR-to-NMT baseline (BLEU 36.38 vs. 31.48). This improvement was validated by human assessment, which confirmed the optimized pipeline's superior Adequacy (3.673) and Fluency (3.804) with inter-rater reliability (Krippendorff's $α {\geq}$ 0.723). This work validates that targeted punctuation restoration is the most effective intervention for mitigating structural noise in the Nepali S2TT pipeline. It establishes an optimized baseline and demonstrates a critical architectural insight for developing cascaded speech translation systems for similar low-resource languages.
- Abstract(参考訳): 低リソース言語のためのカスケード音声テキスト翻訳(S2TT)システムは、構造ノイズ、特に自動音声認識(ASR)フェーズにおける句読点の喪失に悩まされる可能性がある。
本研究では,ネパール語から英語への翻訳におけるノイズの影響を調査し,品質劣化を緩和する最適化パイプラインを提案する。
We established high proficient ASR and NMT components: a Wav2Vec2-XLS-R-300m achieved a state-of-the-art 2.72% CER on OpenSLR-54, a multi-stage fine-tuned MarianMT model reached on 28.32 BLEU score on the FLORES-200。
我々は、句読点損失の影響を実証的に調査し、不規則なASR出力が翻訳品質を著しく低下させ、FLORESベンチマークに20.7%の相対的なBLEU低下を引き起こすことを示した。
そこで本研究では,中間的機能回復モジュール (PRM) の提案と評価を行う。
最後のS2TTパイプラインは、カスタムデータセットで3つの構成でテストされた。
PRMをASR出力に直接適用した最適構成は、直接のASR-to-NMTベースライン(BLEU 36.38 vs. 31.48)よりも4.90 BLEUポイント向上を達成した。
この改良は、最適化されたパイプラインの優れたAdequacy (3.673) と Fluency (3.804) の信頼性(クリッペンドルフの$α {\geq}$ 0.723)を確認した人間の評価によって検証された。
本研究は,ネパールS2TTパイプラインにおける構造騒音の緩和に最も効果的な介入であることを示す。
最適化されたベースラインを確立し、類似の低リソース言語のためのカスケード音声翻訳システムを開発する上で重要なアーキテクチャ上の洞察を示す。
関連論文リスト
- Mitigating Spurious Correlations in NLI via LLM-Synthesized Counterfactuals and Dynamic Balanced Sampling [0.0]
自然言語推論(NLI)モデルは、意味論的推論よりも、素早い相関にしばしば依存する。
既存の緩和戦略は、しばしば高いアノテーションコストを発生させるか、微調整中に破滅的な忘れを引き起こす。
これらの制限に対処する自動化されたスケーラブルなパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-20T18:30:54Z) - Incorporating Error Level Noise Embedding for Improving LLM-Assisted Robustness in Persian Speech Recognition [1.3607388598209322]
本研究では,複数の仮説と雑音認識モデルを組み合わせた頑健な雑音感受性ASR誤差補正フレームワークを提案する。
雑音の多いペルシャ語を用いて、修正されたWhisper-largeデコーダから5-best仮説を生成する。
実験結果から, ELN条件付きモデルは単語誤り率(WER)を大幅に低減できることが示された。
論文 参考訳(メタデータ) (2025-12-19T05:26:50Z) - An Evaluation Study of Hybrid Methods for Multilingual PII Detection [0.026059379504241156]
本稿では,決定論的正規表現と文脈認識型大規模言語モデル(LLM)を組み合わせて,スケーラブルなPII検出を行うRECAPを提案する。
重み付きF1スコアでは,NERモデルでは82%,ゼロショットLLMでは17%の精度で性能が向上した。
この作業は、コンプライアンスにフォーカスしたアプリケーションにおいて、効率的なPII検出のためのスケーラブルで適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-08T21:03:59Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Amortized Noisy Channel Neural Machine Translation [53.48804610779759]
ノイズチャネルモデルは神経機械翻訳(NMT)に特に有効である
我々は,BSRで生成された翻訳と同じ報酬を最大化する翻訳を生成するような,アモータイズされたノイズチャネルNMTモデルを構築することを目指している。
論文 参考訳(メタデータ) (2021-12-16T07:10:02Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。