Fugu-MT 論文翻訳(概要): StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection

論文の概要: StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection

arxiv url: http://arxiv.org/abs/2406.06097v1
Date: Mon, 10 Jun 2024 08:27:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 14:37:02.505153
Title: StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection
Title（参考訳）: StreamAtt: 意図に基づく音声履歴選択による直接音声テキスト翻訳
Authors: Sara Papi, Marco Gaido, Matteo Negri, Luisa Bentivogli,
Abstract要約: Streaming Speech-to-text Translation (StreamST)は、音声ストリームをインクリメンタルに受信しながら自動的に音声を翻訳するタスクである。第1のStreamSTポリシであるStreamAttを導入し,第1のStreamSTレイテンシメトリックであるStreamLAALを提案する。
参考スコア（独自算出の注目度）: 23.75894159181602
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Streaming speech-to-text translation (StreamST) is the task of automatically translating speech while incrementally receiving an audio stream. Unlike simultaneous ST (SimulST), which deals with pre-segmented speech, StreamST faces the challenges of handling continuous and unbounded audio streams. This requires additional decisions about what to retain of the previous history, which is impractical to keep entirely due to latency and computational constraints. Despite the real-world demand for real-time ST, research on streaming translation remains limited, with existing works solely focusing on SimulST. To fill this gap, we introduce StreamAtt, the first StreamST policy, and propose StreamLAAL, the first StreamST latency metric designed to be comparable with existing metrics for SimulST. Extensive experiments across all 8 languages of MuST-C v1.0 show the effectiveness of StreamAtt compared to a naive streaming baseline and the related state-of-the-art SimulST policy, providing a first step in StreamST research.
Abstract（参考訳）: Streaming Speech-to-text Translation (StreamST)は、音声ストリームをインクリメンタルに受信しながら自動的に音声を翻訳するタスクである。事前セグメンテーションされた音声を扱う同時ST(SimulST)とは異なり、StreamSTは連続的および非有界なオーディオストリームを扱うという課題に直面している。これは、待ち時間と計算の制約によって完全に維持できない、以前の履歴の保持に関する追加的な決定を必要とする。リアルタイムSTの現実的な需要にもかかわらず、ストリーミング翻訳の研究は依然として限られており、既存の研究はSimulSTのみに焦点を当てている。このギャップを埋めるために、最初のStreamSTポリシーであるStreamAttを導入し、SimulSTの既存のメトリクスに匹敵するように設計された最初のStreamSTレイテンシメトリックであるStreamLAALを提案します。 MuST-C v1.0の8言語すべてにわたる大規模な実験では、ストリーミングベースラインと関連する最先端のSimulSTポリシーと比較してStreamAttの有効性が示され、StreamST研究の第一歩となった。

関連論文リスト

SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation [14.57248739077317]
本稿では,LLMをオフラインで学習するSimulS2S-LLMを提案する。 SimulS2S-LLMは、個別の音声トークンを予測し、事前訓練されたボコーダを用いて出力音声を合成することにより、同時音声音声変換(Simul-S2ST)を実現する。
論文参考訳（メタデータ） (2025-04-22T01:05:32Z)
InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language Model [10.40867923457809]
InfiniSSTは、マルチターン対話タスクとしてSSTを定式化する新しいアプローチである。我々は,MST-Cから翻訳トラジェクトリとロバストセグメントを構築し,トレーニング中に多遅延拡張を行った。 MuST-C En-Es、En-De、En-Zhの実験では、InfiniSSTは計算に意識したレイテンシを0.5秒から1秒に短縮することを示した。
論文参考訳（メタデータ） (2025-03-04T19:51:29Z)
SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。 SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文参考訳（メタデータ） (2025-02-16T12:14:17Z)
FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文参考訳（メタデータ） (2024-08-18T10:12:39Z)
CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文参考訳（メタデータ） (2024-08-14T10:44:51Z)
StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning [48.84039953531356]
StreamSpeechは、翻訳と同時ポリシーを共同で学習するSimul-S2STモデルである。 CVSSベンチマークの実験では、StreamSpeechはオフラインS2STタスクとSimul-S2STタスクの両方で最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-05T08:24:22Z)
Streaming Sequence Transduction through Dynamic Compression [55.0083843520833]
本稿では,ストリーム上の効率のよいシーケンス・ツー・シーケンス・トランスダクションを設計した新しいトランスフォーマーモデルであるSTAR(Stream Transduction with Anchor Representations)を紹介する。 STARは入力ストリームを動的にセグメント化して圧縮アンカー表現を生成し、自動音声認識(ASR)においてほぼロスレス圧縮(12x)を達成する STARは、音声とテキストの同時タスクにおいて、セグメンテーションとレイテンシ品質のトレードオフが優れており、レイテンシ、メモリフットプリント、品質が最適化されている。
論文参考訳（メタデータ） (2024-02-02T06:31:50Z)
DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文参考訳（メタデータ） (2023-09-14T19:33:27Z)
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。 AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文参考訳（メタデータ） (2023-05-24T17:59:03Z)
Adapting Offline Speech Translation Models for Streaming with Future-Aware Distillation and Inference [34.50987690518264]
ストリーミング音声翻訳の一般的なアプローチは、異なるレイテンシ要求をサポートするために、wait-kポリシを備えた単一のオフラインモデルを使用することである。完全発話で訓練されたモデルを用いて部分的な入力を伴うストリーミング推論を行う場合、ミスマッチ問題が発生する。本稿では,ストリーミング入力にオフラインSTモデルを適用するFuture-Aware Streaming Translation (FAST) という新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-14T13:56:36Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
UniST: Unified End-to-end Model for Streaming and Non-streaming Speech Translation [12.63410397982031]
我々は、ストリーミングおよび非ストリーミング音声翻訳をサポートする統一モデル(UniST)を開発した。最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験は、UniST が非ストリーミングSTに対して大幅な改善を達成していることを示している。
論文参考訳（メタデータ） (2021-09-15T15:22:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。