論文の概要: Speech Translation Refinement using Large Language Models
- arxiv url: http://arxiv.org/abs/2501.15090v1
- Date: Sat, 25 Jan 2025 05:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:26.887828
- Title: Speech Translation Refinement using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた音声翻訳の微細化
- Authors: Huaixia Dou, Xinyu Tian, Xinglin Lyu, Jie Zhu, Junhui Li, Lifan Guo,
- Abstract要約: 本稿では,大規模言語モデル(LLM)が,共同改良プロセスを導入することにより,音声翻訳の性能を向上する方法について検討する。
LLMによる音声翻訳(ST)と自動音声認識(ASR)の併用により,STモデルの性能は大幅に向上した。
7つの翻訳タスクを含む MuST-C と CoVoST 2 データセットの実験結果から,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 8.602429274223693
- License:
- Abstract: Recent advancements in large language models (LLMs) have demonstrated their remarkable capabilities across various language tasks. Inspired by the success of text-to-text translation refinement, this paper investigates how LLMs can improve the performance of speech translation by introducing a joint refinement process. Through the joint refinement of speech translation (ST) and automatic speech recognition (ASR) transcription via LLMs, the performance of the ST model is significantly improved in both training-free in-context learning and parameter-efficient fine-tuning scenarios. Additionally, we explore the effect of document-level context on refinement under the context-aware fine-tuning scenario. Experimental results on the MuST-C and CoVoST 2 datasets, which include seven translation tasks, demonstrate the effectiveness of the proposed approach using several popular LLMs including GPT-3.5-turbo, LLaMA3-8B, and Mistral-12B. Further analysis further suggests that jointly refining both transcription and translation yields better performance compared to refining translation alone. Meanwhile, incorporating document-level context significantly enhances refinement performance. We release our code and datasets on GitHub.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な言語タスクにまたがる顕著な能力を示している。
本稿では,テキスト間翻訳の改良の成功に触発されて,共同翻訳プロセスを導入することで,LLMが音声翻訳の性能を向上する方法について検討する。
LLMによる音声翻訳(ST)と自動音声認識(ASR)の併用により、STモデルの性能はトレーニング不要のインコンテキスト学習とパラメータ効率の良い微調整シナリオの両方において大幅に向上する。
さらに,文書レベルの文脈が文脈を考慮した微調整シナリオ下での洗練に与える影響についても検討する。
7つの翻訳タスクを含む MuST-C と CoVoST 2 データセットの実験結果から,GPT-3.5-turbo,LLaMA3-8B,Mistral-12B などの一般的な LLM を用いた提案手法の有効性が示された。
さらに分析したところ、転写と翻訳の双方を共同精製することで、翻訳単独よりも優れた性能が得られることが示唆された。
一方、文書レベルのコンテキストを取り入れることで、改善性能が大幅に向上する。
コードとデータセットはGitHubでリリースしています。
関連論文リスト
- LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - A Novel Paradigm Boosting Translation Capabilities of Large Language Models [11.537249547487045]
本論文は,一貫した単言語データを用いた二次事前学習,インターリニアテキストフォーマット文書による継続事前学習,および教師付きファインチューニングのためのソース・ランゲージ・コンスタント・インストラクションの活用という,3つの段階からなる新しいパラダイムを提案する。
Llama2モデルを用いた実験結果,特に中国語-Llama2を用いて,LLMの翻訳能力の向上を実証した。
論文 参考訳(メタデータ) (2024-03-18T02:53:49Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。