Fugu-MT 論文翻訳(概要): Streaming Sequence Transduction through Dynamic Compression

論文の概要: Streaming Sequence Transduction through Dynamic Compression

arxiv url: http://arxiv.org/abs/2402.01172v1
Date: Fri, 2 Feb 2024 06:31:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 16:39:33.027929
Title: Streaming Sequence Transduction through Dynamic Compression
Title（参考訳）: 動的圧縮によるストリーミングシーケンス変換
Authors: Weiting Tan, Yunmo Chen, Tongfei Chen, Guanghui Qin, Haoran Xu, Heidi C. Zhang, Benjamin Van Durme, Philipp Koehn
Abstract要約: 本稿では,ストリーム上の効率のよいシーケンス・ツー・シーケンス・トランスダクションを設計した新しいトランスフォーマーモデルであるSTAR(Stream Transduction with Anchor Representations)を紹介する。 STARは入力ストリームを動的にセグメント化して圧縮アンカー表現を生成し、自動音声認識(ASR)においてほぼロスレス圧縮(12x)を達成する STARは、音声とテキストの同時タスクにおいて、セグメンテーションとレイテンシ品質のトレードオフが優れており、レイテンシ、メモリフットプリント、品質が最適化されている。
参考スコア（独自算出の注目度）: 55.0083843520833
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce STAR (Stream Transduction with Anchor Representations), a novel Transformer-based model designed for efficient sequence-to-sequence transduction over streams. STAR dynamically segments input streams to create compressed anchor representations, achieving nearly lossless compression (12x) in Automatic Speech Recognition (ASR) and outperforming existing methods. Moreover, STAR demonstrates superior segmentation and latency-quality trade-offs in simultaneous speech-to-text tasks, optimizing latency, memory footprint, and quality.
Abstract（参考訳）: 本稿では,ストリーム上の効率のよいシーケンス・ツー・シーケンス・トランスダクションを設計した新しいトランスフォーマーモデルであるSTAR(Stream Transduction with Anchor Representations)を紹介する。 starは入力ストリームを動的にセグメント化し、圧縮アンカー表現を生成し、自動音声認識 (asr) においてほぼ無損失圧縮 (12x) を達成する。さらにSTARは、音声とテキストの同時タスクにおいて、より優れたセグメンテーションとレイテンシ品質のトレードオフを示し、レイテンシ、メモリフットプリント、品質を最適化する。

関連論文リスト

Streaming Non-Autoregressive Model for Accent Conversion and Pronunciation Improvement [52.89324095217975]
本研究では,非ネイティブ音声を母語的アクセントに変換する最初のアクセント変換モデルを提案する。提案手法は,従来のACアーキテクチャをEmformerエンコーダと最適化推論機構で変更することでストリーム処理を実現する。
論文参考訳（メタデータ） (2025-06-19T20:05:29Z)
Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-26T08:25:01Z)
Streaming Piano Transcription Based on Consistent Onset and Offset Decoding with Sustain Pedal Detection [10.607017917148996]
本稿では,音楽信号から音符のオンセットおよびオフセットイベントのシーケンスへと逐次変換することを目的とした,ストリーミング音声からMIDIへのピアノの書き起こし手法について述べる。 MAESTROデータセットを用いて実験したところ、提案したストリーミング手法は最先端のオフライン方式と同等かそれ以上に動作していた。
論文参考訳（メタデータ） (2025-03-03T09:55:54Z)
Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文参考訳（メタデータ） (2023-07-07T02:26:18Z)
Efficient Encoders for Streaming Sequence Tagging [13.692806815196077]
ストリーミングシーケンスタギングのための最先端双方向エンコーダの単純適用には、インクリメンタルストリーミング入力(書き起こし音声など)において、新しいトークンごとにスクラッチから各トークンをエンコードする必要がある。以前の計算の再利用性の欠如により、浮動小数点演算(FLOP)の数が増加し、不要なラベルフリップの数が増加した。オフライン(あるいは完全)入力上で双方向エンコーダの性能を維持しながら,これらの問題に対処するHEAR(Adaptive Restart)を提案する。
論文参考訳（メタデータ） (2023-01-23T02:20:39Z)
Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文参考訳（メタデータ） (2022-04-15T17:24:39Z)
Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding [21.978994865937786]
この方法は、テキスト機能とオーディオ機能の両方に対応するトランスフォーマーデコーダを各ステップで共有する、いくつかの改善ステップを実行する。本研究では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,第1パスRNN-Tよりも精度の高い認識結果が得られることを示す。
論文参考訳（メタデータ） (2021-12-01T01:34:28Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)
Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文参考訳（メタデータ） (2021-07-02T20:56:13Z)
Streaming Simultaneous Speech Translation with Augmented Memory Transformer [29.248366441276662]
トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
論文参考訳（メタデータ） (2020-10-30T18:28:42Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)
Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文参考訳（メタデータ） (2020-01-08T18:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。