論文の概要: ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention
- arxiv url: http://arxiv.org/abs/2505.10222v2
- Date: Tue, 27 May 2025 08:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.452793
- Title: ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention
- Title(参考訳): ComplexFormer: 複合ベクトル注意によるトランスフォーマー推論能力の破壊的向上
- Authors: Jintian Shao, Hongyi Huang, Jiayi Wu, Beiwen Zhang, ZhiYu Wu, You Shan, MingKai Zheng,
- Abstract要約: 本稿では,複雑多面的注意-CMHAを特徴とするコンプレックスフォーマーを紹介する。
CMHAは、複雑な平面内で統合された意味的および位置的差異を独立にモデル化する。
テストの結果、ComplexFormerは優れたパフォーマンスを実現し、生成パープレキシティを著しく低くし、長いコンテキストのコヒーレンスを改善した。
- 参考スコア(独自算出の注目度): 9.470124763460904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models rely on self-attention to capture token dependencies but face challenges in effectively integrating positional information while allowing multi-head attention (MHA) flexibility. Prior methods often model semantic and positional differences disparately or apply uniform positional adjustments across heads, potentially limiting representational capacity. This paper introduces ComplexFormer, featuring Complex Multi-Head Attention-CMHA. CMHA empowers each head to independently model semantic and positional differences unified within the complex plane, representing interactions as rotations and scaling. ComplexFormer incorporates two key improvements: (1) a per-head Euler transformation, converting real-valued query/key projections into polar-form complex vectors for head-specific complex subspace operation; and (2) a per-head adaptive differential rotation mechanism, exp[i(Adapt(ASmn,i) + Delta(Pmn),i)], allowing each head to learn distinct strategies for integrating semantic angle differences (ASmn,i) with relative positional encodings (Delta(Pmn),i). Extensive experiments on language modeling, text generation, code generation, and mathematical reasoning show ComplexFormer achieves superior performance, significantly lower generation perplexity , and improved long-context coherence compared to strong baselines like RoPE-Transformers. ComplexFormer demonstrates strong parameter efficiency, offering a more expressive, adaptable attention mechanism.
- Abstract(参考訳): トランスフォーマーモデルはトークンの依存関係をキャプチャするために自己注意に頼っているが、マルチヘッドアテンション(MHA)の柔軟性を確保しながら、位置情報を効果的に統合するという課題に直面している。
従来の手法では、意味的および位置的差異を異なる方法でモデル化したり、ヘッド間で均一な位置調整を施したりし、表現能力を制限する可能性がある。
本稿では,複雑多面的注意-CMHAを特徴とするコンプレックスフォーマーを紹介する。
CMHAは、複雑な平面内で統合された意味的および位置的差異を独立にモデル化し、相互作用を回転とスケーリングとして表現する。
ComplexFormerは、(1) 頭ごとのEuler変換、(1) 頭ごとの複雑な部分空間演算のための実数値クエリ/キープロジェクションを極形複素ベクトルに変換する、(2) 頭ごとの適応微分回転機構 exp[i(Adapt(ASmn,i) + Delta(Pmn,i)] により、各頭が意味角差(ASmn,i)を相対的な位置エンコーディング(Delta(Pmn,i))と統合するための異なる戦略を学ぶことができる。
言語モデリング、テキスト生成、コード生成、数学的推論に関する大規模な実験により、コンプレックスフォーマーは、RoPE-Transformerのような強力なベースラインと比較して、優れた性能、より低い生成パープレクシリティを実現し、長いコンテキストのコヒーレンスを改善した。
ComplexFormerは強力なパラメータ効率を示し、より表現力があり適応可能なアテンションメカニズムを提供する。
関連論文リスト
- EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。