論文の概要: KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025
- arxiv url: http://arxiv.org/abs/2505.13036v1
- Date: Mon, 19 May 2025 12:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.584805
- Title: KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025
- Title(参考訳): IWSLT 2025の提出後におけるKITのオフライン音声翻訳と指導
- Authors: Sai Koneru, Maike Züfle, Thai-Binh Nguyen, Seymanur Akti, Jan Niehues, Alexander Waibel,
- Abstract要約: 本稿では、カールスルーエ工科大学のオフラインSTとインストラクションフォロー(IF)トラックへの提出について紹介する。
文書レベルの文脈を持つLLMを用いて出力を融合した複数の自動音声認識システムを用いたパイプラインを提案する。
IFトラックでは,音声エンコーダとLLMを統合し,幅広い命令追従タスクを実行するエンド・ツー・エンド・モデルを開発した。
- 参考スコア(独自算出の注目度): 56.61209412965054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scope of the International Workshop on Spoken Language Translation (IWSLT) has recently broadened beyond traditional Speech Translation (ST) to encompass a wider array of tasks, including Speech Question Answering and Summarization. This shift is partly driven by the growing capabilities of modern systems, particularly with the success of Large Language Models (LLMs). In this paper, we present the Karlsruhe Institute of Technology's submissions for the Offline ST and Instruction Following (IF) tracks, where we leverage LLMs to enhance performance across all tasks. For the Offline ST track, we propose a pipeline that employs multiple automatic speech recognition systems, whose outputs are fused using an LLM with document-level context. This is followed by a two-step translation process, incorporating additional refinement step to improve translation quality. For the IF track, we develop an end-to-end model that integrates a speech encoder with an LLM to perform a wide range of instruction-following tasks. We complement it with a final document-level refinement stage to further enhance output quality by using contextual information.
- Abstract(参考訳): IWSLT(International Workshop on Spoken Language Translation)のスコープは最近、従来の音声翻訳(ST)を超えて拡張され、音声質問回答や要約など幅広いタスクがカバーされた。
このシフトは、現代システムの能力の増大、特にLarge Language Models (LLMs)の成功によってもたらされる。
本稿では,カースルーエ工科大学のオフラインSTと命令追従 (IF) トラックの提出について述べる。
オフラインSTトラックでは,複数の自動音声認識システムを用いて,文書レベルの文脈を持つLLMを用いて出力を融合するパイプラインを提案する。
この後、2段階の翻訳プロセスが続き、翻訳品質を改善するためにさらなる改良ステップが加えられる。
IFトラックでは,音声エンコーダとLLMを統合し,幅広い命令追従タスクを実行するエンド・ツー・エンド・モデルを開発した。
文書レベルの最終改良段階を補完し、文脈情報を用いて出力品質をさらに向上する。
関連論文リスト
- Speech Translation Refinement using Large Language Models [8.602429274223693]
本稿では,大規模言語モデル(LLM)が,共同改良プロセスを導入することにより,音声翻訳の性能を向上する方法について検討する。
LLMによる音声翻訳(ST)と自動音声認識(ASR)の併用により,STモデルの性能は大幅に向上した。
7つの翻訳タスクを含む MuST-C と CoVoST 2 データセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-01-25T05:32:42Z) - Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。
さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文 参考訳(メタデータ) (2024-10-27T04:28:57Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - FST: the FAIR Speech Translation System for the IWSLT21 Multilingual
Shared Task [36.51221186190272]
IWSLT 2021評価キャンペーンに提出したエンドツーエンドの多言語音声翻訳システムについて述べる。
本システムは,モダリティ,タスク,言語間の伝達学習を活用して構築する。
論文 参考訳(メタデータ) (2021-07-14T19:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。