論文の概要: Stochastic Parroting in Temporal Attention -- Regulating the Diagonal Sink
- arxiv url: http://arxiv.org/abs/2602.10956v1
- Date: Wed, 11 Feb 2026 15:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.068905
- Title: Stochastic Parroting in Temporal Attention -- Regulating the Diagonal Sink
- Title(参考訳): 時間的注意における確率的パロチング-対角性シンクの調節
- Authors: Victoria Hankemeier, Malte Hankemeier,
- Abstract要約: 因果的注意または時間的畳み込みの過度な監視は、最初のトークンに偏りを生じさせる。
対角線外アテンションスコアがシーケンスの長さにどのように依存するかを示し、時間的アテンション行列が対角線アテンションシンクに苦しむことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal models analyze spatial structures and temporal dynamics, which makes them prone to information degeneration among space and time. Prior literature has demonstrated that over-squashing in causal attention or temporal convolutions creates a bias on the first tokens. To analyze whether such a bias is present in temporal attention mechanisms, we derive sensitivity bounds on the expected value of the Jacobian of a temporal attention layer. We theoretically show how off-diagonal attention scores depend on the sequence length, and that temporal attention matrices suffer a diagonal attention sink. We suggest regularization methods, and experimentally demonstrate their effectiveness.
- Abstract(参考訳): 時空間モデルは空間構造と時間力学を解析し、空間と時間の間の情報変性を引き起こす。
以前の文献では、因果的注意または時間的畳み込みの過度な監視は、最初のトークンに偏見をもたらすことが示されている。
このようなバイアスが時間的注意機構に存在するかどうかを分析するために、時間的注意層のジャコビアンの期待値に感度境界を導出する。
理論的には、対角方向の注意スコアがシーケンスの長さに依存し、時間的注意行列が対角方向の注意シンクを被ることを示す。
正則化手法を提案し,その有効性を実験的に実証した。
関連論文リスト
- Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis [61.597286699809395]
textbfTemporal Attention Pattern Predictability Analysis (TAPPA)を紹介する。
TAPPAは、注意パターンを明確な規則性を持つ予測可能なパターンと、効果的にランダムに見える予測不可能なパターンと特徴付けている。
クエリ,キー,ロータリー位置埋め込み(RoPE)の結合効果による3つの代表的な症例の詳細な数学的解析を行う。
論文 参考訳(メタデータ) (2026-01-29T13:40:23Z) - Unleashing Temporal Capacity of Spiking Neural Networks through Spatiotemporal Separation [67.69345363409835]
スパイキングニューラルネットワーク(SNN)は、時間的処理に自然に適していると考えられており、膜電位の伝播は、コア時間的モデリングメカニズムとして広く見なされている。
我々は, 膜伝播を段階的に段階的に除去する非ステートフル(NS)モデルの設計を行った。
論文 参考訳(メタデータ) (2025-12-05T07:05:53Z) - A Spatio-Temporal Point Process for Fine-Grained Modeling of Reading Behavior [47.47269936037604]
心理言語学のアンサッツは、読者の固定とケードをモデル化することで、オンラインの文処理に関する洞察が得られるということである。
このようなモデリングの標準的なアプローチは、強い仮定を課す、集約された視線追跡測定とモデルに依存している。
本稿では,より一般的な読解行動の確率的モデルを提案する。
ササードはホークスプロセスを用いてモデル化され、それぞれの固定が時間と空間で新しい固定が生じる確率をとらえる。
論文 参考訳(メタデータ) (2025-06-24T20:39:21Z) - Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。
時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。
STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-03-14T02:26:10Z) - Easy attention: A simple attention mechanism for temporal predictions with transformers [2.172584429650463]
キー,クエリ,ソフトマックスは,時間的シーケンスにおける長期依存を捉えるのに必要な注意点を得るのに必要ではないことを示す。
提案手法は,注意点を直接学習可能なパラメータとして扱う。
この手法はカオスシステムの時間的ダイナミクスの再構築と予測において優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-08-24T15:54:32Z) - Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive
Learning [42.22064610886404]
予測学習の一般的なフレームワークとして,エンコーダとデコーダがフレーム内の特徴をキャプチャし,中間時間モジュールがフレーム間の依存関係をキャッチする手法を提案する。
時間的モジュールを並列化するために,時間的注意をフレーム内静的な注意とフレーム間動的注意に分解する時間的注意ユニット(TAU)を提案する。
論文 参考訳(メタデータ) (2022-06-24T07:43:50Z) - Anomaly Transformer: Time Series Anomaly Detection with Association
Discrepancy [68.86835407617778]
Anomaly Transformerは、6つの教師なし時系列異常検出ベンチマークで最先端のパフォーマンスを達成する。
Anomaly Transformerは、6つの教師なし時系列異常検出ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-10-06T10:33:55Z) - CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations [72.4716073597902]
本研究では,動的あるいは動いた物体の標準点クラウド表現を学習する手法を提案する。
本稿では, 形状再構成, カメラポーズ推定, 連続時間列再構成, 対応推定など, 様々な応用における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-08-06T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。