論文の概要: Direct Simultaneous Translation Activation for Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2509.15692v1
- Date: Fri, 19 Sep 2025 07:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.044034
- Title: Direct Simultaneous Translation Activation for Large Audio-Language Models
- Title(参考訳): 大規模オーディオ言語モデルのための直接同時翻訳アクティベーション
- Authors: Pei Zhang, Yiming Wang, Jialong Tang, Baosong Yang, Rui Wang, Derek F. Wong, Fei Huang,
- Abstract要約: 音声からテキストへの同時翻訳(Simul-S2TT)は,音声をテキストにリアルタイムで翻訳することを目的としている。
我々は、LALMs固有の能力を利用して同時データを得る戦略であるbf SimulSA(bf SimulSA)を導入する。
- 参考スコア(独自算出の注目度): 58.03785696031301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simultaneous speech-to-text translation (Simul-S2TT) aims to translate speech into target text in real time, outputting translations while receiving source speech input, rather than waiting for the entire utterance to be spoken. Simul-S2TT research often modifies model architectures to implement read-write strategies. However, with the rise of large audio-language models (LALMs), a key challenge is how to directly activate Simul-S2TT capabilities in base models without additional architectural changes. In this paper, we introduce {\bf Simul}taneous {\bf S}elf-{\bf A}ugmentation ({\bf SimulSA}), a strategy that utilizes LALMs' inherent capabilities to obtain simultaneous data by randomly truncating speech and constructing partially aligned translation. By incorporating them into offline SFT data, SimulSA effectively bridges the distribution gap between offline translation during pretraining and simultaneous translation during inference. Experimental results demonstrate that augmenting only about {\bf 1\%} of the simultaneous data, compared to the full offline SFT data, can significantly activate LALMs' Simul-S2TT capabilities without modifications to model architecture or decoding strategy.
- Abstract(参考訳): シミュラ-S2TT(Simul-S2TT)は、全発話が発声されるのを待つのではなく、ソース音声入力を受信しながら翻訳を出力し、音声をリアルタイムで対象のテキストに翻訳することを目的としている。
Simul-S2TT の研究は、しばしば読み書き戦略を実装するためにモデルアーキテクチャを変更する。
しかし、大型オーディオ言語モデル (LALM) の台頭とともに、アーキテクチャ変更を加えることなく、ベースモデルでSimul-S2TTを直接アクティベートする方法が大きな課題となっている。
本稿では、LALMs固有の能力を利用して音声をランダムに切り抜き、部分的に整列した翻訳を構築する戦略である {\bf Simul}taneous {\bf S}elf-{\bf A}ugmentation ({\bf SimulSA})を紹介する。
それらをオフラインのSFTデータに組み込むことで、SimulSAは事前学習中のオフライン翻訳と推論時の同時翻訳の間の分配ギャップを効果的に橋渡しする。
実験結果から, モデルアーキテクチャやデコード戦略を変更することなく, LALMのSimul-S2TT能力を著しく活性化できることがわかった。
関連論文リスト
- SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation [14.57248739077317]
本稿では,LLMをオフラインで学習するSimulS2S-LLMを提案する。
SimulS2S-LLMは、個別の音声トークンを予測し、事前訓練されたボコーダを用いて出力音声を合成することにより、同時音声音声変換(Simul-S2ST)を実現する。
論文 参考訳(メタデータ) (2025-04-22T01:05:32Z) - Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture [14.056534007451763]
同時音声翻訳(SimulST)は、部分的な音声入力を処理しながら段階的に翻訳を生成する。
既存のLLMベースのSimulSTアプローチは、双方向音声エンコーダの繰り返し符号化による計算オーバーヘッドが大きい。
完全一方向アーキテクチャを用いた効率・適応同時音声翻訳(EASiST)を提案する。
論文 参考訳(メタデータ) (2025-04-16T06:46:15Z) - Tagged End-to-End Simultaneous Speech Translation Training using
Simultaneous Interpretation Data [16.05089716626287]
SIとオフラインの混合データを用いてSimulSTモデルをトレーニングする効果的な方法を提案する。
実験結果から, BLEURTのレイテンシの異なる範囲での改善が示された。
論文 参考訳(メタデータ) (2023-06-14T15:42:06Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - RealTranS: End-to-End Simultaneous Speech Translation with Convolutional
Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。
音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。
実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-09T06:35:46Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。