論文の概要: Overcoming Non-monotonicity in Transducer-based Streaming Generation
- arxiv url: http://arxiv.org/abs/2411.17170v2
- Date: Wed, 28 May 2025 11:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.046093
- Title: Overcoming Non-monotonicity in Transducer-based Streaming Generation
- Title(参考訳): トランスデューサによるストリーミング生成における非単調性の克服
- Authors: Zhengrui Ma, Yang Feng, Min Zhang,
- Abstract要約: 本研究は,Transducerの復号と学習可能な単調な注意による入力ストリーム履歴を統合する。
提案手法は,フォワード・バックワードアルゴリズムを用いて,予測状態と入力タイムスタンプとのアライメントの後方確率を推定する。
実験によると、MonoAttn-Transducerはストリーミングシナリオにおける非モノトニックアライメントを効果的に処理している。
- 参考スコア(独自算出の注目度): 26.24357071901915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming generation models are utilized across fields, with the Transducer architecture being popular in industrial applications. However, its input-synchronous decoding mechanism presents challenges in tasks requiring non-monotonic alignments, such as simultaneous translation. In this research, we address this issue by integrating Transducer's decoding with the history of input stream via a learnable monotonic attention. Our approach leverages the forward-backward algorithm to infer the posterior probability of alignments between the predictor states and input timestamps, which is then used to estimate the monotonic context representations, thereby avoiding the need to enumerate the exponentially large alignment space during training. Extensive experiments show that our MonoAttn-Transducer effectively handles non-monotonic alignments in streaming scenarios, offering a robust solution for complex generation tasks.
- Abstract(参考訳): ストリーミング生成モデルは、産業アプリケーションで広く使われているTransducerアーキテクチャとともに、フィールド全体で利用されている。
しかし、入力同期復号機構は、同時翻訳のような非単調なアライメントを必要とするタスクにおいて課題を呈している。
本研究では,Transducerのデコードと入力ストリームの履歴を学習可能なモノトニックアテンションを通じて統合することにより,この問題に対処する。
提案手法では,前向きアルゴリズムを用いて予測状態と入力タイムスタンプとのアライメントの後方確率を推定し,モノトニックな文脈表現を推定することにより,トレーニング中に指数的に大きなアライメント空間を列挙する必要がない。
大規模な実験によると、MonoAttn-Transducerはストリーミングシナリオにおける非モノトニックアライメントを効果的に処理し、複雑な生成タスクに対して堅牢なソリューションを提供する。
関連論文リスト
- Sequence Complementor: Complementing Transformers For Time Series Forecasting with Learnable Sequences [5.244482076690776]
シーケンス表現の表現能力は、時間予測においてTransformerのパフォーマンスに影響を与える重要な要因であることがわかった。
本稿では,シークエンス・コンプリメンタを用いた新しいアテンション機構を提案し,情報理論の観点から実現可能であることを示す。
論文 参考訳(メタデータ) (2025-01-06T03:08:39Z) - LinFormer: A Linear-based Lightweight Transformer Architecture For Time-Aware MIMO Channel Prediction [39.12741712294741]
第6世代(6G)モバイルネットワークは、ハイモビリティ通信をサポートする上で、新たな課題をもたらす。
本稿では,スケーラブルで全線形なエンコーダのみのトランスフォーマーモデルに基づく,革新的なチャネル予測フレームワークLinFormerを提案する。
提案手法は,高い予測精度を維持しつつ,計算複雑性を大幅に低減し,コスト効率のよい基地局(BS)の展開に適している。
論文 参考訳(メタデータ) (2024-10-28T13:04:23Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Rough Transformers: Lightweight Continuous-Time Sequence Modelling with Path Signatures [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。