論文の概要: Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs
- arxiv url: http://arxiv.org/abs/2512.16378v1
- Date: Thu, 18 Dec 2025 10:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.008228
- Title: Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs
- Title(参考訳): 翻訳に耳を傾ける:LLMへの音声モダリティ統合の有効性
- Authors: Sara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle,
- Abstract要約: SpeechLLMは、従来の転写ベースのパイプラインをバイパスして、音声言語を直接翻訳することを目的としている。
分析対象は16のベンチマーク,13の言語ペア,9つの困難な条件である。
現在のSpeechLLMは、選択した設定のカスケードにのみ対応しているのに対して、カスケードシステムは全体として最も信頼性が高い。
- 参考スコア(独自算出の注目度): 20.25147816779636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) expand beyond text, integrating speech as a native modality has given rise to SpeechLLMs, which aim to translate spoken language directly, thereby bypassing traditional transcription-based pipelines. Whether this integration improves speech-to-text translation quality over established cascaded architectures, however, remains an open question. We present Hearing to Translate, the first comprehensive test suite rigorously benchmarking 5 state-of-the-art SpeechLLMs against 16 strong direct and cascade systems that couple leading speech foundation models (SFM), with multilingual LLMs. Our analysis spans 16 benchmarks, 13 language pairs, and 9 challenging conditions, including disfluent, noisy, and long-form speech. Across this extensive evaluation, we find that cascaded systems remain the most reliable overall, while current SpeechLLMs only match cascades in selected settings and SFMs lag behind both, highlighting that integrating an LLM, either within the model or in a pipeline, is essential for high-quality speech translation.
- Abstract(参考訳): 大きな言語モデル(LLM)がテキストを超えて拡大するにつれて、音声をネイティブなモダリティとして統合することで、音声言語を直接翻訳することを目的としたSpeechLLMが生まれ、従来の転写ベースのパイプラインをバイパスする。
しかし、この統合により、確立されたカスケードアーキテクチャよりも音声からテキストへの翻訳の質が向上するかどうかは未解決のままである。
先進的な音声基礎モデル(SFM)と多言語LLMを組み合わせた16の強い直接およびカスケードシステムに対して、5つの最先端のSpeechLLMを厳格にベンチマークする最初の総合的なテストスイートであるHearing to Translateを提示する。
分析対象は16のベンチマーク,13の言語ペア,9つの困難な条件である。
この広範囲な評価結果から,既存のSpeechLLMは選択した設定のカスケードとSFMの遅延にのみ対応し,LLMをモデル内あるいはパイプライン内に統合することは高品質な音声翻訳に不可欠であることが示唆された。
関連論文リスト
- End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs [0.3867363075280544]
音声翻訳(英: Speech Translation、ST)とは、ある言語からの音声信号を他の言語の対応するテキストに変換することを含む機械翻訳タスクである。
本稿では,事前学習した音声エンコーダとLarge Language Models(LLM)を併用して,音声認識(ASR)とSTの両方を同時に実行するためのエンドツーエンドアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2025-10-11T20:10:30Z) - Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR [23.285609467633865]
本稿では、多言語連続会話自動音声認識(ASR)を改善するために、言語固有の双方向コンテキストを音声大言語モデル(SLLM)に統合する。
トレーニング中の文字レベルのコンテキストマスキング戦略を提案する。これにより、コンテキストの一部がランダムに除去され、堅牢性が向上し、推論中に発生する可能性のある欠陥のある文字のエミュレートが向上する。
論文 参考訳(メタデータ) (2025-06-16T12:03:23Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。