論文の概要: Stochastic Clock Attention for Aligning Continuous and Ordered Sequences
- arxiv url: http://arxiv.org/abs/2509.14678v1
- Date: Thu, 18 Sep 2025 07:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.102203
- Title: Stochastic Clock Attention for Aligning Continuous and Ordered Sequences
- Title(参考訳): 連続配列および順序順序列の確率的クロックアテンション
- Authors: Hyungjoon Soh, Junghyo Jo,
- Abstract要約: 我々はアライメントモデルとして機能する連続および順序列に対する注意機構を定式化する。
Transformerのテキスト音声テストベッドでは、この構造により、より安定したアライメントが得られ、グローバルな時間スケーリングに対する堅牢性が向上する。
- 参考スコア(独自算出の注目度): 1.2418532541734193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We formulate an attention mechanism for continuous and ordered sequences that explicitly functions as an alignment model, which serves as the core of many sequence-to-sequence tasks. Standard scaled dot-product attention relies on positional encodings and masks but does not enforce continuity or monotonicity, which are crucial for frame-synchronous targets. We propose learned nonnegative \emph{clocks} to source and target and model attention as the meeting probability of these clocks; a path-integral derivation yields a closed-form, Gaussian-like scoring rule with an intrinsic bias toward causal, smooth, near-diagonal alignments, without external positional regularizers. The framework supports two complementary regimes: normalized clocks for parallel decoding when a global length is available, and unnormalized clocks for autoregressive decoding -- both nearly-parameter-free, drop-in replacements. In a Transformer text-to-speech testbed, this construction produces more stable alignments and improved robustness to global time-scaling while matching or improving accuracy over scaled dot-product baselines. We hypothesize applicability to other continuous targets, including video and temporal signal modeling.
- Abstract(参考訳): 連続列と順序列に対する注意機構を定式化し、アライメントモデルとして明示的に機能し、多くのシーケンス対シーケンスタスクのコアとして機能する。
標準的なドット積の注意は位置エンコーディングやマスクに依存しているが、フレーム同期ターゲットにとって重要な連続性や単調性は強制しない。
経路積分導出は、外的位置正則化を伴わず、因果的、滑らかで、ほぼ対角的なアライメントに固有の偏りを持つ閉形式のガウス的スコアリング規則を導出する。
このフレームワークは、2つの補完的なルールをサポートしている。グローバルな長さが利用可能な場合の並列デコーディングのための正規化クロックと、自動回帰デコーディングのための非正規化クロック -- ほぼパラメータフリー、ドロップインの置換 -- である。
Transformerのテキスト音声テストベッドでは、この構造により、より安定したアライメントが得られ、グローバルなタイムスケーリングに対するロバスト性が向上すると同時に、スケールされたドット積ベースラインよりも精度が向上する。
我々は、ビデオや時間的信号モデリングなど、他の連続的ターゲットへの適用性について仮説を立てる。
関連論文リスト
- Timer-XL: Long-Context Transformers for Unified Time Series Forecasting [67.83502953961505]
我々は時系列の統一予測のための因果変換器Timer-XLを提案する。
大規模な事前トレーニングに基づいて、Timer-XLは最先端のゼロショット性能を達成する。
論文 参考訳(メタデータ) (2024-10-07T07:27:39Z) - Oscillatory State-Space Models [61.923849241099184]
長いシーケンスを効率的に学習するための線形状態空間モデル(LinOSS)を提案する。
高速な連想並列スキャンを用いて時間とともに統合された安定な離散化により、提案した状態空間モデルが得られる。
我々はLinOSSが普遍であること、すなわち時間変化関数間の連続および因果作用素写像を近似できることを示す。
論文 参考訳(メタデータ) (2024-10-04T22:00:13Z) - Continuous-Time Linear Positional Embedding for Irregular Time Series Forecasting [14.038703353884033]
時間情報を符号化する連続線形関数を学習するCTLPEを提案する。
CTLPEは、様々な不規則にサンプリングされた時系列データセットで既存の技術より優れている。
論文 参考訳(メタデータ) (2024-09-30T08:46:18Z) - Latte: Latent Attention for Linear Time Transformers [11.524573224123905]
注意を喚起するための確率的枠組みを提案する。
本手法は,標準アテンション機構のドロップイン置換としてシームレスに統合できる。
結果として生じるLatte Transformer'は、標準的な注目やその他の最先端モデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-27T13:54:48Z) - Imputing Missing Observations with Time Sliced Synthetic Minority
Oversampling Technique [0.3973560285628012]
本稿では,データセット内の各サンプルに対して均一な不規則な時系列を構成することを目的とした,単純かつ斬新な時系列計算手法を提案する。
我々は、観測時間の重複しないビン(「スライス」と呼ばれる)の中間点で定義される格子を固定し、各サンプルが所定の時間にすべての特徴に対して値を持つことを保証する。
これにより、完全に欠落した観察をインプットし、データ全体の時系列の均一な分類を可能にし、特別な場合には個々の欠落した特徴をインプットすることができる。
論文 参考訳(メタデータ) (2022-01-14T19:23:24Z) - Spectral embedding for dynamic networks with stability guarantees [7.575860121202432]
動的ネットワークベクトルを埋め込み、各ノードの時間進化表現を得る問題を考える。
これらの性質は、一般的な動的潜在位置モデルの中で正式に定義される。
このモデルを多層ランダムドット積グラフとして再キャストする方法を示す。
論文 参考訳(メタデータ) (2021-06-02T16:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。