論文の概要: Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024
- arxiv url: http://arxiv.org/abs/2406.16777v1
- Date: Mon, 24 Jun 2024 16:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 13:55:51.415727
- Title: Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024
- Title(参考訳): 音声翻訳におけるLLMのブレンディング:IWSLT 2024におけるKITのオフライン音声翻訳システム
- Authors: Sai Koneru, Thai-Binh Nguyen, Ngoc-Quan Pham, Danni Liu, Zhaolin Li, Alexander Waibel, Jan Niehues,
- Abstract要約: 大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
- 参考スコア(独自算出の注目度): 61.189875635090225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are currently under exploration for various tasks, including Automatic Speech Recognition (ASR), Machine Translation (MT), and even End-to-End Speech Translation (ST). In this paper, we present KIT's offline submission in the constrained + LLM track by incorporating recently proposed techniques that can be added to any cascaded speech translation. Specifically, we integrate Mistral-7B\footnote{mistralai/Mistral-7B-Instruct-v0.1} into our system to enhance it in two ways. Firstly, we refine the ASR outputs by utilizing the N-best lists generated by our system and fine-tuning the LLM to predict the transcript accurately. Secondly, we refine the MT outputs at the document level by fine-tuning the LLM, leveraging both ASR and MT predictions to improve translation quality. We find that integrating the LLM into the ASR and MT systems results in an absolute improvement of $0.3\%$ in Word Error Rate and $0.65\%$ in COMET for tst2019 test set. In challenging test sets with overlapping speakers and background noise, we find that integrating LLM is not beneficial due to poor ASR performance. Here, we use ASR with chunked long-form decoding to improve context usage that may be unavailable when transcribing with Voice Activity Detection segmentation alone.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、自動音声認識(ASR)、機械翻訳(MT)、さらにはエンドツーエンド音声翻訳(ST)など、様々なタスクを探索中である。
本稿では,制約付き+LLMトラックにおけるKITのオフライン・サブミッションについて,最近提案された手法を組み込んで記述する。
具体的には、Mistral-7B\footnote{mistralai/Mistral-7B-Instruct-v0.1}をシステムに統合し、2つの方法で拡張する。
まず,本システムで生成したN-bestリストを活用し,LLMを微調整し,転写文を正確に予測することで,ASR出力を改良する。
第2に,LLMの微調整により文書レベルでのMT出力を洗練し,ASRとMT予測の両方を活用して翻訳品質を向上させる。
LLM を ASR と MT システムに統合すると,単語誤り率 0.3 % と tst2019 テストセット COMET の 0.65 % が絶対的に向上することがわかった。
重なり合う話者と背景雑音を伴う挑戦的なテストセットにおいて、LLMの統合は、ASR性能の悪いため、有益ではないことが判明した。
ここでは,音声活動検出セグメンテーションのみでの翻訳では利用できないコンテキスト使用量を改善するために,チャンク長形デコード付きASRを用いる。
関連論文リスト
- Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs [20.97172337899685]
そこで本研究では,Pinyinの埋め込みシーケンス上で,対応する漢字を生成するための大規模言語モデル(LLM)の事前学習を提案する。
このステップにより、LLMは実際の音声データに遭遇する前に発音特徴からテキストを生成することができる。
AISHELL-1コーパスでは,ベースラインに比べてASRタスクが9.5%改善した。
論文 参考訳(メタデータ) (2024-09-24T12:06:31Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Cross-Utterance Language Models with Acoustic Error Sampling [1.376408511310322]
標準長短期メモリ (LSTM) LMへの入力を増強するために, CULM (Cross-utterance LM) を提案する。
トレーニングとテストタイムのミスマッチを低減するために,音響誤差サンプリング手法を提案する。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
論文 参考訳(メタデータ) (2020-08-19T17:40:11Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。