論文の概要: RASST: Fast Cross-modal Retrieval-Augmented Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2601.22777v1
- Date: Fri, 30 Jan 2026 09:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.368559
- Title: RASST: Fast Cross-modal Retrieval-Augmented Simultaneous Speech Translation
- Title(参考訳): RASST: 高速なクロスモーダル検索-拡張同時音声翻訳
- Authors: Jiaxuan Luo, Siqi Ouyang, Lei Li,
- Abstract要約: 同時音声翻訳(SST)は、部分的な音声入力から段階的にターゲットテキストを生成する。
最近の音声大言語モデル(Speech LLMs)は、SSTの品質を大幅に向上させたが、レアおよびドメイン固有の用語を正しく翻訳するのは難しい。
本稿では,SSTパイプラインにクロスモーダル検索を密に統合したRASST(Retrieval-Augmented Simultaneous Speech Translation)を提案する。
- 参考スコア(独自算出の注目度): 9.807543197382016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Simultaneous speech translation (SST) produces target text incrementally from partial speech input. Recent speech large language models (Speech LLMs) have substantially improved SST quality, yet they still struggle to correctly translate rare and domain-specific terminology. While retrieval augmentation has been effective for terminology translation in machine translation, bringing retrieval to SST is non-trivial: it requires fast and accurate cross-modal (speech-to-text) retrieval under partial, continually arriving input, and the model must decide whether and when to apply retrieved terms during incremental generation. We propose Retrieval-Augmented Simultaneous Speech Translation (RASST), which tightly integrates cross-modal retrieval into the SST pipeline. RASST trains a lightweight speech-text retriever and performs efficient sliding-window retrieval, providing chunkwise terminology hints to the Speech LLM. We further synthesize training data that teaches the Speech LLM to leverage retrieved terms precisely. Experiments on three language directions of the ACL 60/60 dev set show that RASST improves terminology translation accuracy by up to 16% and increases overall translation quality by up to 3 BLEU points, with ablations confirming the contribution of each component.
- Abstract(参考訳): 同時音声翻訳(SST)は、部分的な音声入力から段階的にターゲットテキストを生成する。
最近の音声大言語モデル(Speech LLMs)は、SSTの品質を大幅に向上させたが、レアおよびドメイン固有の用語を正しく翻訳するのは難しい。
検索の強化は機械翻訳における用語翻訳に有効であるが、SSTに検索をもたらすのは簡単ではない。
本稿では,SSTパイプラインにクロスモーダル検索を密に統合したRASST(Retrieval-Augmented Simultaneous Speech Translation)を提案する。
RASSTは、軽量な音声テキスト検索装置を訓練し、効率的なスライドウインドウ検索を行い、音声LLMにチャンクワイズな用語ヒントを提供する。
さらに、抽出された単語を正確に活用するように、音声LLMに教える訓練データを合成する。
ACL 60/60開発セットの3つの言語方向の実験では、RASSTは用語翻訳の精度を最大16%向上し、全体的な翻訳品質を最大3 BLEUポイント向上させ、各コンポーネントの寄与を確認している。
関連論文リスト
- Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs [41.088390995105826]
音声音声翻訳 (S2ST) は大規模言語モデル (LLM) で進歩している。
LLMはテキストのみのデータに基づいて訓練され、音声から音声への限られたデータで、それらに適応するための課題が提示される。
本研究では,本研究における音声教育の予定について述べる。
論文 参考訳(メタデータ) (2025-06-12T02:24:44Z) - SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation [14.57248739077317]
本稿では,LLMをオフラインで学習するSimulS2S-LLMを提案する。
SimulS2S-LLMは、個別の音声トークンを予測し、事前訓練されたボコーダを用いて出力音声を合成することにより、同時音声音声変換(Simul-S2ST)を実現する。
論文 参考訳(メタデータ) (2025-04-22T01:05:32Z) - FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - Navigating the Minefield of MT Beam Search in Cascaded Streaming Speech Translation [4.20846752769876]
我々は,機械翻訳においてよく知られたビームサーチアルゴリズムを適用し,実時間音声翻訳システムで動作させる。
これは4つの重要な課題のために、当初予想されていたよりも複雑であることが判明した。
論文 参考訳(メタデータ) (2024-06-26T07:34:53Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。