論文の概要: Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling
- arxiv url: http://arxiv.org/abs/2509.08753v1
- Date: Wed, 10 Sep 2025 16:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.51416
- Title: Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling
- Title(参考訳): 遅延ストリームモデリングを用いたストリームシーケンス・ツー・シーケンス学習
- Authors: Neil Zeghidour, Eugene Kharitonov, Manu Orsini, Václav Volhejn, Gabriel de Marmiesse, Edouard Grave, Patrick Pérez, Laurent Mazaré, Alexandre Défossez,
- Abstract要約: 遅延ストリームモデリングはシーケンス対シーケンス学習のための柔軟な定式化である。
任意の入力の組み合わせから任意の出力シーケンスのストリーミング推論を提供する。
- 参考スコア(独自算出の注目度): 57.708486655254966
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Delayed Streams Modeling (DSM), a flexible formulation for streaming, multimodal sequence-to-sequence learning. Sequence-to-sequence generation is often cast in an offline manner, where the model consumes the complete input sequence before generating the first output timestep. Alternatively, streaming sequence-to-sequence rely on learning a policy for choosing when to advance on the input stream, or write to the output stream. DSM instead models already time-aligned streams with a decoder-only language model. By moving the alignment to a pre-processing step,and introducing appropriate delays between streams, DSM provides streaming inference of arbitrary output sequences, from any input combination, making it applicable to many sequence-to-sequence problems. In particular, given text and audio streams, automatic speech recognition (ASR) corresponds to the text stream being delayed, while the opposite gives a text-to-speech (TTS) model. We perform extensive experiments for these two major sequence-to-sequence tasks, showing that DSM provides state-of-the-art performance and latency while supporting arbitrary long sequences, being even competitive with offline baselines. Code, samples and demos are available at https://github.com/kyutai-labs/delayed-streams-modeling
- Abstract(参考訳): Delayed Streams Modeling (DSM) は、ストリーミング、マルチモーダルシーケンス・ツー・シーケンス学習のためのフレキシブルな定式化である。
シーケンス・ツー・シーケンス生成はしばしばオフラインでキャストされ、モデルが最初の出力タイムステップを生成する前に完全な入力シーケンスを消費する。
あるいは、ストリームシーケンス・ツー・シーケンスは、入力ストリームをいつ前進させるか、出力ストリームに書き込むかを選択するためのポリシーを学ぶことに依存する。
DSMはすでにデコーダのみの言語モデルでタイムアラインストリームをモデル化している。
ストリーム間のアライメントを前処理ステップに移動し、ストリーム間の適切な遅延を導入することで、DSMは任意の出力シーケンスのストリーミング推論を任意の組み合わせから提供し、多くのシーケンス対シーケンス問題に適用できる。
特に、テキストストリームとオーディオストリームが与えられた場合、自動音声認識(ASR)はテキストストリームの遅延に対応し、反対側ではテキスト音声(TTS)モデルを提供する。
我々はこれらの2つの主要なシーケンス・ツー・シーケンスタスクに対して広範な実験を行い、DSMは任意の長いシーケンスをサポートしながら最先端のパフォーマンスとレイテンシを提供し、オフラインのベースラインと競合することを示した。
コード、サンプル、デモはhttps://github.com/kyutai-labs/delayed-streams-modelingで公開されている。
関連論文リスト
- Sequential Order-Robust Mamba for Time Series Forecasting [5.265578815577529]
MambaはTransformersに代わる有望な選択肢として登場し、シーケンシャルデータの処理において、ほぼ直線的な複雑さを提供する。
本稿では,データから生成された2つの埋め込みベクトルと逆チャネル順序との差を最小限に抑えるため,正規化戦略を取り入れたTS予測手法であるSOR-Mambaを提案する。
また,CDを捕捉する能力を高めるために,データ空間から潜在空間までのチャネル間の相関関係の保存を目的とした事前学習タスクであるチャネル相関モデリング(CCM)を導入する。
論文 参考訳(メタデータ) (2024-10-30T18:05:22Z) - Streaming Sequence Transduction through Dynamic Compression [52.736991266286196]
本稿では,ストリーム上の効率のよいシーケンス・ツー・シーケンス・トランスダクションを設計した新しいトランスフォーマーモデルであるSTAR(Stream Transduction with Anchor Representations)を紹介する。
STARは入力ストリームを動的にセグメント化して圧縮アンカー表現を生成し、自動音声認識(ASR)においてほぼロスレス圧縮(12x)を達成する
STARは、音声とテキストの同時タスクにおいて、セグメンテーションとレイテンシ品質のトレードオフが優れており、レイテンシ、メモリフットプリント、品質が最適化されている。
論文 参考訳(メタデータ) (2024-02-02T06:31:50Z) - Masked Audio Generation using a Single Non-Autoregressive Transformer [90.11646612273965]
MAGNeTは、複数のオーディオトークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法である。
テキスト・トゥ・ミュージック・アンド・テキスト・トゥ・オーディオ・ジェネレーションのタスクにおけるMAGNeTの有効性を実証する。
我々は、自己回帰と非自己回帰モデリングのトレードオフを指摘するとともに、MAGNeTを構成する各コンポーネントの重要性を強調した。
論文 参考訳(メタデータ) (2024-01-09T14:29:39Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。