Fugu-MT 論文翻訳(概要): Tuning Large language model for End-to-end Speech Translation

論文の概要: Tuning Large language model for End-to-end Speech Translation

arxiv url: http://arxiv.org/abs/2310.02050v1
Date: Tue, 3 Oct 2023 13:43:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 14:10:06.878138
Title: Tuning Large language model for End-to-end Speech Translation
Title（参考訳）: エンドツーエンド音声翻訳のための大言語モデルのチューニング
Authors: Hao Zhang, Nianwen Si, Yaqi Chen, Wenlin Zhang, Xukui Yang, Dan Qu, Xiaolin Jiao
Abstract要約: 本稿では,E2E-STタスクを最適化した大規模マルチモーダルモデルであるLSTを紹介する。 MuST-C 音声翻訳ベンチマークの実験結果は、En-De/En-Fr/En-Es 言語ペアの LST-13B BLEU スコアが 30.39/41.55/35.33 であり、以前のモデルを超え、新しい最先端技術を確立したことを示している。
参考スコア（独自算出の注目度）: 7.297914077124909
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the emergence of large language models (LLMs), multimodal models based on LLMs have demonstrated significant potential. Models such as LLaSM, X-LLM, and SpeechGPT exhibit an impressive ability to comprehend and generate human instructions. However, their performance often falters when faced with complex tasks like end-to-end speech translation (E2E-ST), a cross-language and cross-modal translation task. In comparison to single-modal models, multimodal models lag behind in these scenarios. This paper introduces LST, a Large multimodal model designed to excel at the E2E-ST task. LST consists of a speech frontend, an adapter, and a LLM backend. The training of LST consists of two stages: (1) Modality adjustment, where the adapter is tuned to align speech representation with text embedding space, and (2) Downstream task fine-tuning, where both the adapter and LLM model are trained to optimize performance on the E2EST task. Experimental results on the MuST-C speech translation benchmark demonstrate that LST-13B achieves BLEU scores of 30.39/41.55/35.33 on En-De/En-Fr/En-Es language pairs, surpassing previous models and establishing a new state-of-the-art. Additionally, we conduct an in-depth analysis of single-modal model selection and the impact of training strategies, which lays the foundation for future research. We will open up our code and models after review.
Abstract（参考訳）: 大規模言語モデル (LLM) の出現に伴い, LLM に基づくマルチモーダルモデルは大きな可能性を示している。 LLaSM、X-LLM、SpeechGPTといったモデルは、人間の指示を理解して生成する素晴らしい能力を示している。しかし、その性能は、言語間およびモーダル間の翻訳タスクであるエンドツーエンド音声翻訳(E2E-ST)のような複雑なタスクに直面した時にしばしば悪化する。シングルモーダルモデルと比較して、マルチモーダルモデルはこれらのシナリオでは遅れている。本稿では,E2E-STタスクを最適化した大規模マルチモーダルモデルであるLSTを紹介する。 LSTは、音声フロントエンド、アダプタ、LLMバックエンドで構成される。 LST の訓練は,(1) 適応をテキスト埋め込み空間に合わせるように調整するモダリティ調整,(2) 下流タスクの微調整,(2) アダプタと LLM モデルの両方を訓練して,E2EST タスクの性能を最適化する。 MuST-C 音声翻訳ベンチマークの実験結果から,En-De/En-Fr/En-Es 言語ペアにおいて LST-13B が 30.39/41.55/35.33 のBLEU スコアを達成し,従来のモデルを上回っ,新たな最先端技術を確立した。さらに,単一モーダルモデルの選択と,今後の研究の基盤となるトレーニング戦略の影響について,詳細な分析を行う。レビュー後、コードとモデルを開放します。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (2024-12-11T23:36:20Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Making LLMs Better Many-to-Many Speech-to-Text Translators with Curriculum Learning [32.883836078329665]
MLLM(Multimodal Large Language Models)は、音声テキスト翻訳(S2TT)タスクにおいて大きな成功を収めている。本稿では,大規模言語モデルの機械翻訳機能を活用し,S2TTタスクに適応する3段階のカリキュラム学習戦略を提案する。実験結果から,提案手法は15時間14ドルの言語対で最先端の平均性能を実現することが示された。
論文参考訳（メタデータ） (2024-09-29T01:48:09Z)
LLaST: Improved End-to-end Speech Translation System Leveraged by Large Language Models [38.60622303744585]
LLaSTは、高性能な大規模言語モデルに基づく音声テキスト翻訳システムを構築するためのフレームワークである。我々のアプローチには、LLMベースの音声翻訳アーキテクチャ設計、ASR強化トレーニング、多言語データ拡張、二重LoRA最適化が含まれる。
論文参考訳（メタデータ） (2024-07-22T06:42:00Z)
Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-03T14:42:49Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文参考訳（メタデータ） (2024-01-12T09:29:13Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文参考訳（メタデータ） (2023-12-21T05:32:49Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)
ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding [23.367329217151084]
エンドツーエンドの音声言語理解タスクに対処するために,Speech-Text BERT (ST-BERT) と呼ばれる,モーダルな事前学習言語モデルを導入する。 ST-BERTは、音素の後方テキストとサブワードレベルのテキストを入力として、文脈化されたクロスモーダルアライメントを学習する。提案手法は,ドメイン固有音声テキストペアデータを用いたドメイン適応型事前学習により,さらなるSLU性能向上を示す。
論文参考訳（メタデータ） (2020-10-23T10:28:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。