論文の概要: TeluguST-46: A Benchmark Corpus and Comprehensive Evaluation for Telugu-English Speech Translation
- arxiv url: http://arxiv.org/abs/2512.07265v1
- Date: Mon, 08 Dec 2025 08:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.773176
- Title: TeluguST-46: A Benchmark Corpus and Comprehensive Evaluation for Telugu-English Speech Translation
- Title(参考訳): TeluguST-46: 音声翻訳のためのベンチマークコーパスと総合評価
- Authors: Bhavana Akkiraju, Srihari Bandarupalli, Swathi Sambangi, Vasavi Ravuri, R Vijaya Saraswathi, Anil Kumar Vuppala,
- Abstract要約: テルグ語は8千万人以上の人々が話しているが、この形態学的に豊かな言語に対する音声翻訳の研究はいまだに過小評価されている。
我々は,手作業によるCSTDコーパスデータ(30h/8h/8h列車/dev/テストスプリット)の46時間から高品質なTelugu- English音声翻訳ベンチマークを開発した。
IndicWhisper + IndicMTは,広範囲なTelugu固有のトレーニングデータによって最高の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 5.06999188636889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite Telugu being spoken by over 80 million people, speech translation research for this morphologically rich language remains severely underexplored. We address this gap by developing a high-quality Telugu--English speech translation benchmark from 46 hours of manually verified CSTD corpus data (30h/8h/8h train/dev/test split). Our systematic comparison of cascaded versus end-to-end architectures shows that while IndicWhisper + IndicMT achieves the highest performance due to extensive Telugu-specific training data, finetuned SeamlessM4T models demonstrate remarkable competitiveness despite using significantly less Telugu-specific training data. This finding suggests that with careful hyperparameter tuning and sufficient parallel data (potentially less than 100 hours), end-to-end systems can achieve performance comparable to cascaded approaches in low-resource settings. Our metric reliability study evaluating BLEU, METEOR, ChrF++, ROUGE-L, TER, and BERTScore against human judgments reveals that traditional metrics provide better quality discrimination than BERTScore for Telugu--English translation. The work delivers three key contributions: a reproducible Telugu--English benchmark, empirical evidence of competitive end-to-end performance potential in low-resource scenarios, and practical guidance for automatic evaluation in morphologically complex language pairs.
- Abstract(参考訳): テルグ語は8千万人以上の人々が話しているが、この形態学的に豊かな言語に対する音声翻訳の研究はいまだに過小評価されている。
我々は,手作業によるCSTDコーパスデータ(30h/8h/8h列車/dev/テストスプリット)の46時間から,高品質なTelugu- English音声翻訳ベンチマークを開発することで,このギャップに対処する。
IndicWhisper + IndicMTは,広範囲なTelugu固有のトレーニングデータによって最高の性能を発揮するが,SeamlessM4Tモデルでは極めて少ないTelugu固有のトレーニングデータを使用しながら,優れた競争力を示す。
この発見は、注意深いハイパーパラメータチューニングと十分な並列データ(潜在的に100時間未満)によって、エンド・ツー・エンドのシステムは低リソース環境でのカスケードアプローチに匹敵するパフォーマンスを達成することができることを示唆している。
人的判断に対するBLEU, METEOR, ChrF++, ROUGE-L, TER, BERTScoreを評価する尺度信頼性調査により, 従来の尺度は, Telugu- English 翻訳におけるBERTScoreよりも優れた品質評価を提供することが明らかになった。再現性のある Telugu- English ベンチマーク, 低リソースシナリオにおける競合的なエンドツーエンドのパフォーマンスポテンシャルの実証的証拠, 形態学的に複雑な言語ペアにおける自動評価のための実践的ガイダンスの3つの重要な貢献が得られた。
関連論文リスト
- Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks [6.177998679139308]
ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、Tigrinyaのような低リソース言語はいまだに保存されていない。
本稿では,多言語事前学習モデルを用いた翻訳学習手法について検討し,形態的に豊かな低リソース言語に対する翻訳品質を向上させる。
論文 参考訳(メタデータ) (2025-09-24T15:02:57Z) - Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark [11.068031181100276]
我々は4つの言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータを研究する。
真の多言語評価に対するベンチマークの適合性の重大な欠点を明らかにする。
我々は、ドメイン汎用および文化的に中立なソーステキストを使用する多言語MTベンチマークを提唱する。
論文 参考訳(メタデータ) (2025-08-28T07:52:42Z) - TeSent: A Benchmark Dataset for Fairness-aware Explainable Sentiment Classification in Telugu [0.0]
インド亜大陸では、テルグ語はインドの6つの古典言語の一つである。
全世界で9900万の話者ベースを抱えるTeluguは、グローバルなNLPと機械学習の世界では、いまだに不足している。
論文 参考訳(メタデータ) (2025-08-02T20:42:37Z) - Code-Mixed Telugu-English Hate Speech Detection [0.0]
本研究では,TeleguHateBERT,HateBERT,DeBERTa,Muril,IndicBERT,Roberta,Hindi-Abusive-MuRILなどのトランスフォーマーモデルを用いて,Teluguにおけるヘイトスピーチの分類を行った。
低ランク適応(LoRA)を用いてこれらのモデルを微調整し、効率と性能を最適化する。
Google Translateを使ってTeluguのテキストを英語に翻訳し、分類精度への影響を評価する。
論文 参考訳(メタデータ) (2025-02-15T02:03:13Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。