論文の概要: Learning Monotonic Attention in Transducer for Streaming Generation
- arxiv url: http://arxiv.org/abs/2411.17170v1
- Date: Tue, 26 Nov 2024 07:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:32:46.703787
- Title: Learning Monotonic Attention in Transducer for Streaming Generation
- Title(参考訳): ストリーミング生成用トランスデューサにおけるモノトニックアテンションの学習
- Authors: Zhengrui Ma, Yang Feng, Min Zhang,
- Abstract要約: 本研究では,Transducerベースのストリーミング生成モデルにおいて,非単調アライメントを扱うための学習可能なモノトニックアテンション機構を提案する。
提案手法により,Transducerモデルでは,指数関数的に大きなアライメント空間を列挙する必要がなく,その予測に基づいてアライメント範囲を適応的に調整することができる。
- 参考スコア(独自算出の注目度): 26.24357071901915
- License:
- Abstract: Streaming generation models are increasingly utilized across various fields, with the Transducer architecture being particularly popular in industrial applications. However, its input-synchronous decoding mechanism presents challenges in tasks requiring non-monotonic alignments, such as simultaneous translation, leading to suboptimal performance in these contexts. In this research, we address this issue by tightly integrating Transducer's decoding with the history of input stream via a learnable monotonic attention mechanism. Our approach leverages the forward-backward algorithm to infer the posterior probability of alignments between the predictor states and input timestamps, which is then used to estimate the context representations of monotonic attention in training. This allows Transducer models to adaptively adjust the scope of attention based on their predictions, avoiding the need to enumerate the exponentially large alignment space. Extensive experiments demonstrate that our MonoAttn-Transducer significantly enhances the handling of non-monotonic alignments in streaming generation, offering a robust solution for Transducer-based frameworks to tackle more complex streaming generation tasks.
- Abstract(参考訳): ストリーミング生成モデルは様々な分野で利用され、Transducerアーキテクチャは特に産業アプリケーションで人気がある。
しかし、その入力同期復号機構は、同時翻訳のような非単調なアライメントを必要とするタスクにおいて課題を生じさせ、これらのコンテキストにおける準最適性能をもたらす。
本研究では,Transducerの復号を学習可能なモノトニックアテンション機構を通じて入力ストリームの履歴と密に統合することにより,この問題に対処する。
提案手法は,前向きアルゴリズムを用いて予測状態と入力タイムスタンプとのアライメントの後方確率を推定し,トレーニングにおける単調な注意の文脈表現を推定する。
これにより、Transducerモデルは、指数的に大きなアライメント空間を列挙する必要がないため、予測に基づいて注意範囲を適応的に調整することができる。
大規模な実験により、MonoAttn-Transducerはストリーミング生成における非モノトニックアライメントの処理を大幅に強化し、Transducerベースのフレームワークがより複雑なストリーミング生成タスクに取り組むための堅牢なソリューションを提供する。
関連論文リスト
- LinFormer: A Linear-based Lightweight Transformer Architecture For Time-Aware MIMO Channel Prediction [39.12741712294741]
第6世代(6G)モバイルネットワークは、ハイモビリティ通信をサポートする上で、新たな課題をもたらす。
本稿では,スケーラブルで全線形なエンコーダのみのトランスフォーマーモデルに基づく,革新的なチャネル予測フレームワークLinFormerを提案する。
提案手法は,高い予測精度を維持しつつ,計算複雑性を大幅に低減し,コスト効率のよい基地局(BS)の展開に適している。
論文 参考訳(メタデータ) (2024-10-28T13:04:23Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Rough Transformers: Lightweight Continuous-Time Sequence Modelling with Path Signatures [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。