論文の概要: Attention Dispersion in Dynamic Graph Transformers: Diagnosis and a Transferable Fix
- arxiv url: http://arxiv.org/abs/2605.16112v1
- Date: Fri, 15 May 2026 15:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.355549
- Title: Attention Dispersion in Dynamic Graph Transformers: Diagnosis and a Transferable Fix
- Title(参考訳): 動的グラフ変換器における注意分散 : 診断と伝達可能な固定
- Authors: Jinhao Zhang, Kangfei Zhao, Qiuhao Zeng, Long-Kai Huang,
- Abstract要約: 我々は、時間分布シフトの下で、注意分散を動的グラフ変換器の共有故障モードとみなす。
予測は、任意の隣接ノードよりも一貫して予測信号を運ぶ臨界ノードのクラスに依存することを示す。
本稿では、差分注意と標準入力符号化を組み合わせた参照実装であるDiffDyGを紹介する。
- 参考スコア(独自算出の注目度): 19.55465761427973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based architectures have become the dominant paradigm for Continuous-Time Dynamic Graph (CTDG) learning, yet their performance remains limited on temporally shifted datasets. In this work, we identify attention dispersion as a shared failure mode of dynamic graph Transformers under temporal distribution shift. Through controlled ablation contrasting structurally and temporally distinguished historical neighbors against random ones, we show that prediction depends on a class of critical nodes that carry consistently more predictive signal than arbitrary neighbors. However, existing Transformers fail to focus on these nodes even when they are present in the input, as temporal shift weakens attention contrast and produces overly dispersed attention distributions. This diagnosis suggests a simple and transferable fix: replace standard attention with differential attention, which suppresses common-mode attention and amplifies distinctive token-level signals. When added to three representative CTDG Transformer baselines, differential attention consistently improves performance, with gains concentrated on high-shift datasets. Attention-level measurements further confirm the mechanism, showing reduced attention entropy and increased attention mass on critical nodes. Building on these findings, we introduce DiffDyG, a reference implementation combining differential attention with standard input encodings. Across 9 benchmarks and three negative sampling protocols, DiffDyG achieves SOTA performance, with especially large gains on the most shifted datasets.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、連続時間動的グラフ(CTDG)学習の主要なパラダイムとなっているが、そのパフォーマンスは、時間的にシフトしたデータセットに限られている。
本研究では,時間分布シフト下での動的グラフ変換器の共有故障モードとして注意分散を同定する。
構造的および時間的に区別された歴史的隣人をランダムな隣人に対して対照する制御的アブレーションを通して、予測は任意の隣人よりも一貫して予測的な信号を運ぶ臨界ノードのクラスに依存することを示す。
しかし、時間シフトは注意コントラストを弱め、過度に分散した注意分布を生成するため、既存のTransformerは入力に存在する場合でもこれらのノードにフォーカスすることができない。
この診断は、標準的な注意を差分注意に置き換え、共通モードの注意を抑え、特異なトークンレベルの信号を増幅する、単純かつ伝達可能な修正を示唆している。
3つの代表的なCTDG Transformerベースラインに加えると、差分注意が常にパフォーマンスを向上し、高シフトデータセットに集中する。
注意レベル測定により、注意エントロピーが減少し、臨界ノードに対する注意質量が増加した。
これらの知見に基づいて、差分注意と標準入力エンコーディングを組み合わせた参照実装DiffDyGを導入する。
9つのベンチマークと3つの負のサンプリングプロトコルで、DiffDyGはSOTAのパフォーマンスを実現している。
関連論文リスト
- Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Pi-Transformer: A Physics-informed Attention Mechanism for Time Series Anomaly Detection [3.8673630752805437]
2つの注意経路を持つ物理インフォーム変換器であるPi-Transformerを提案する。
このモデルは、アライメント重み付けされた再構成信号と、タイミングと位相破壊を強調するミスマッチ信号を組み合わせる。
Pi-Transformerは最先端または競争性の高いF1を実現し、特にタイミングと位相破壊異常に強い。
論文 参考訳(メタデータ) (2025-09-24T10:47:48Z) - Time-o1: Time-Series Forecasting Needs Transformed Label Alignment [50.54348432664401]
Time-o1は、時系列予測に適した変換強化学習目標である。
中心となる考え方は、ラベルシーケンスを区別された意味を持つ非相関なコンポーネントに変換することである。
Time-o1は最先端のパフォーマンスを実現し、様々な予測モデルと互換性がある。
論文 参考訳(メタデータ) (2025-05-23T13:00:35Z) - DAM-GT: Dual Positional Encoding-Based Attention Masking Graph Transformer for Node Classification [16.82685813961535]
本稿では,DAM-GT(Dual positional encoding-based Attention Masking graph Transformer)を提案する。
DAM-GTはノード分類タスクにおける最先端手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-23T09:23:41Z) - Semi-supervised Anomaly Detection with Extremely Limited Labels in Dynamic Graphs [5.415950005432774]
ラベルが極端に制限された動的グラフにおける異常検出問題に対処する新しいGADフレームワーク(EL$2-DGAD)を提案する。
具体的には、変圧器をベースとしたグラフエンコーダモデルにより、局所的な近傍を超えて進化するグラフ構造をより効果的に保存するように設計されている。
論文 参考訳(メタデータ) (2025-01-25T02:35:48Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。
時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。
STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-03-14T02:26:10Z) - Attention as Robust Representation for Time Series Forecasting [23.292260325891032]
多くの実用化には時系列予測が不可欠である。
トランスフォーマーの重要な特徴、注意機構、データ表現を強化するために動的に埋め込みを融合させ、しばしば注意重みを副産物の役割に還元する。
提案手法は,時系列の主表現として注目重みを高くし,データポイント間の時間的関係を利用して予測精度を向上させる。
論文 参考訳(メタデータ) (2024-02-08T03:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。