論文の概要: HITSZ's End-To-End Speech Translation Systems Combining Sequence-to-Sequence Auto Speech Recognition Model and Indic Large Language Model for IWSLT 2025 in Indic Track
- arxiv url: http://arxiv.org/abs/2507.19616v1
- Date: Fri, 25 Jul 2025 18:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.77837
- Title: HITSZ's End-To-End Speech Translation Systems Combining Sequence-to-Sequence Auto Speech Recognition Model and Indic Large Language Model for IWSLT 2025 in Indic Track
- Title(参考訳): IWSLT 2025における系列列自動音声認識モデルとインデックス大言語モデルを組み合わせたHITSZのエンドツーエンド音声翻訳システム
- Authors: Xuchen Wei, Yangxin Wu, Yaoyin Zhang, Henglyu Liu, Kehai Chen, Xuefeng Bai, Min Zhang,
- Abstract要約: Indic-specialized large language model(LLM)であるKrutrimと事前訓練されたWhisper自動音声認識(ASR)モデルを組み合わせたエンドツーエンドシステムを提案する。
実験により,我々のエンドツーエンドシステムは,英語と英語の進路で平均28.88ドル,英語と英語の進路で平均27.86ドルを達成できた。
- 参考スコア(独自算出の注目度): 22.93226769885803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents HITSZ's submission for the IWSLT 2025 Indic track, focusing on speech-to-text translation (ST) for English-to-Indic and Indic-to-English language pairs. To enhance translation quality in this low-resource scenario, we propose an end-to-end system integrating the pre-trained Whisper automated speech recognition (ASR) model with Krutrim, an Indic-specialized large language model (LLM). Experimental results demonstrate that our end-to-end system achieved average BLEU scores of $28.88$ for English-to-Indic directions and $27.86$ for Indic-to-English directions. Furthermore, we investigated the Chain-of-Thought (CoT) method. While this method showed potential for significant translation quality improvements on successfully parsed outputs (e.g. a $13.84$ BLEU increase for Tamil-to-English), we observed challenges in ensuring the model consistently adheres to the required CoT output format.
- Abstract(参考訳): 本稿では,HITSZ による IWSLT 2025 Indic track への提出について述べる。
この低リソースシナリオにおける翻訳品質を向上させるために,事前学習されたWhisper自動音声認識(ASR)モデルと,Indic-specialized large language model(LLM)であるKrutrimを統合するエンド・ツー・エンドシステムを提案する。
実験により,我々のエンドツーエンドシステムは,英語と英語の進路で平均28.88ドル,英語と英語の進路で平均27.86ドルを達成できた。
さらに,CoT法について検討した。
提案手法は,タミル・トゥ・イングリッシュで13.84ドルBLEU増額など,構文解析を成功させる上で重要な翻訳品質向上の可能性を示したが,モデルが必須のCoT出力フォーマットに一貫して準拠することの難しさを観察した。
関連論文リスト
- Simultaneous Translation with Offline Speech and LLM Models in CUNI Submission to IWSLT 2025 [0.0]
本稿では,チャールズ大学におけるIWSLT 2025の同時音声翻訳課題について述べる。
直接またはカスケードアプローチで、4つの言語ペアをすべてカバーしています。
私たちのシステムのバックボーンはオフラインのWhisper音声モデルで、最先端のAlignAttと同時処理モードで翻訳と転写の両方に使用しています。
論文 参考訳(メタデータ) (2025-06-20T15:27:44Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - NAIST Simultaneous Speech Translation System for IWSLT 2024 [18.77311658086372]
本稿では,IWSLT 2024評価キャンペーンの同時進行に対するNAISTの提出について述べる。
We developed a multilingual end-to-end speech-to-text translation model with two-trained language model, HuBERT and mBART。
私たちはこのモデルを、ローカルアグリーメント(LA)とAlignAttという2つのデコードポリシでトレーニングしました。
音声から音声への変換法は,上述した音声からテキストへの変換モデルのカスケードであり,TTSモジュールをインクリメンタルに生成する。
論文 参考訳(メタデータ) (2024-06-30T20:41:02Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - Improving Speech Recognition for Indic Languages using Language Model [0.0]
本稿では,言語モデル(LM)の適用が,インデックス言語の自動音声認識(ASR)システムの出力に与える影響について検討する。
We fine-tune wav2vec $2.0$ models for 18$ Indic languages and adjust the formula with language model training on text from various sources。
論文 参考訳(メタデータ) (2022-03-30T18:22:12Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation [88.78138830698173]
外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
E2E-STモデルを訓練し、パラフレーズ転写を1つのデコーダで補助タスクとして予測する。
論文 参考訳(メタデータ) (2021-04-13T19:00:51Z) - Learning to Evaluate Translation Beyond English: BLEURT Submissions to
the WMT Metrics 2020 Shared Task [30.889496911261677]
本稿では,WMT 2020 Metrics Shared Taskへのコントリビューションについて述べる。
我々は、移動学習に基づくメトリクスBLEURTに基づいていくつかの提案を行う。
BLEURTの予測とYiSiの予測を組み合わせ、代替参照変換を用いて性能を向上させる方法を示す。
論文 参考訳(メタデータ) (2020-10-08T23:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。