論文の概要: Causality-Induced Positional Encoding for Transformer-Based Representation Learning of Non-Sequential Features
- arxiv url: http://arxiv.org/abs/2509.16629v1
- Date: Sat, 20 Sep 2025 11:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.895386
- Title: Causality-Induced Positional Encoding for Transformer-Based Representation Learning of Non-Sequential Features
- Title(参考訳): 非逐次特徴の変換子に基づく表現学習のための因果性誘導位置符号化
- Authors: Kaichen Xu, Yihang Du, Mianpeng Liu, Zimu Yu, Xiaobo Sun,
- Abstract要約: CAPEは、非順序性上の因果構造を重み付き有向非巡回グラフ(DAG)として同定する新しい方法である
DAGは双曲型空間に埋め込まれており、幾何構造は双曲型モデルに基づくアプローチを用いて保存されている。
このステップでは、特徴に対して因果認識された位置符号化が得られ、変換器の自己保持機構と統合するために回転形式に変換される。
- 参考スコア(独自算出の注目度): 2.945172427769856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Positional encoding is essential for supplementing transformer with positional information of tokens. Existing positional encoding methods demand predefined token/feature order, rendering them unsuitable for real-world data with non-sequential yet causally-related features. To address this limitation, we propose CAPE, a novel method that identifies underlying causal structure over non-sequential features as a weighted directed acyclic graph (DAG) using generalized structural equation modeling. The DAG is then embedded in hyperbolic space where its geometric structure is well-preserved using a hyperboloid model-based approach that effectively captures two important causal graph properties (causal strength & causal specificity). This step yields causality-aware positional encodings for the features, which are converted into their rotary form for integrating with transformer's self-attention mechanism. Theoretical analysis reveals that CAPE-generated rotary positional encodings possess three valuable properties for enhanced self-attention, including causal distance-induced attenuation, causal generality-induced attenuation, and robustness to positional disturbances. We evaluate CAPE over both synthetic and real-word datasets, empirically demonstrating its theoretical properties and effectiveness in enhancing transformer for data with non-sequential features. Our code is available at https://github.com/Catchxu/CAPE.
- Abstract(参考訳): トークンの位置情報を変換器に補うには位置符号化が不可欠である。
既存の位置符号化法では、事前に定義されたトークン/フィーチャーの順序が要求されるため、非シークエンシャルで因果関係のない特徴を持つ実世界のデータには適さない。
この制限に対処するために、一般化された構造方程式モデリングを用いて、非順序性上の因果構造を重み付き有向非巡回グラフ(DAG)として同定する新しい手法であるCAPEを提案する。
DAGは双曲型空間に埋め込まれ、幾何構造は双曲型モデルに基づくアプローチでよく保存され、2つの重要な因果グラフ特性(因果強度と因果特異性)を効果的に捉えられる。
このステップでは、特徴に対して因果認識された位置符号化が得られ、変換器の自己保持機構と統合するために回転形式に変換される。
理論的解析により、CAPEが生成する回転位置符号化は、因果距離による減衰、因果一般性による減衰、位置障害に対する堅牢性を含む、自己アテンションを増強する3つの重要な性質を持つことが明らかとなった。
合成データセットと実単語データセットの両方に対してCAPEを評価し、その理論的特性と非逐次特徴を持つデータに対する変換器の強化効果を実証的に実証した。
私たちのコードはhttps://github.com/Catchxu/CAPE.comで公開されています。
関連論文リスト
- Learnable Spatial-Temporal Positional Encoding for Link Prediction [44.0907827498725]
L-STEP という単純な時間リンク予測モデルを提案する。
L-STEPは、空間時間スペクトルの観点からグラフ特性を保存することができる。
L-STEPは最新の大規模TGBベンチマークで主要な性能を得る。
論文 参考訳(メタデータ) (2025-06-10T00:35:53Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.50999191584981]
Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。
我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。
SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文 参考訳(メタデータ) (2024-10-07T09:36:43Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - HyPE: Attention with Hyperbolic Biases for Relative Positional Encoding [0.0]
Transformerベースのアーキテクチャでは、アテンション機構は入力シーケンスのトークンに関して本質的に置換不変である。
本稿では,双曲関数の特性を利用してトークンの相対位置を符号化する新しい手法である,双曲的位置注意(HyPE)を紹介する。
論文 参考訳(メタデータ) (2023-10-30T15:54:32Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Stochastic tensor space feature theory with applications to robust machine learning [3.6891975755608355]
テンソル空間に基づくマルチレベル直交部分空間(MOS)カーフン・ローブ特徴量理論を開発する。
私たちのキーとなる観察は、個別の機械学習クラスは、主に異なる部分空間に存在することができるということです。
血漿データセット(アルツハイマー病神経画像イニシアチブ)の検査では、精度が劇的に向上した。
論文 参考訳(メタデータ) (2021-10-04T22:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。