Fugu-MT 論文翻訳(概要): ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention

論文の概要: ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention

arxiv url: http://arxiv.org/abs/2505.10222v2
Date: Tue, 27 May 2025 08:30:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 14:37:19.452793
Title: ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention
Title（参考訳）: ComplexFormer: 複合ベクトル注意によるトランスフォーマー推論能力の破壊的向上
Authors: Jintian Shao, Hongyi Huang, Jiayi Wu, Beiwen Zhang, ZhiYu Wu, You Shan, MingKai Zheng,
Abstract要約: 本稿では,複雑多面的注意-CMHAを特徴とするコンプレックスフォーマーを紹介する。 CMHAは、複雑な平面内で統合された意味的および位置的差異を独立にモデル化する。テストの結果、ComplexFormerは優れたパフォーマンスを実現し、生成パープレキシティを著しく低くし、長いコンテキストのコヒーレンスを改善した。
参考スコア（独自算出の注目度）: 9.470124763460904
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer models rely on self-attention to capture token dependencies but face challenges in effectively integrating positional information while allowing multi-head attention (MHA) flexibility. Prior methods often model semantic and positional differences disparately or apply uniform positional adjustments across heads, potentially limiting representational capacity. This paper introduces ComplexFormer, featuring Complex Multi-Head Attention-CMHA. CMHA empowers each head to independently model semantic and positional differences unified within the complex plane, representing interactions as rotations and scaling. ComplexFormer incorporates two key improvements: (1) a per-head Euler transformation, converting real-valued query/key projections into polar-form complex vectors for head-specific complex subspace operation; and (2) a per-head adaptive differential rotation mechanism, exp[i(Adapt(ASmn,i) + Delta(Pmn),i)], allowing each head to learn distinct strategies for integrating semantic angle differences (ASmn,i) with relative positional encodings (Delta(Pmn),i). Extensive experiments on language modeling, text generation, code generation, and mathematical reasoning show ComplexFormer achieves superior performance, significantly lower generation perplexity , and improved long-context coherence compared to strong baselines like RoPE-Transformers. ComplexFormer demonstrates strong parameter efficiency, offering a more expressive, adaptable attention mechanism.
Abstract（参考訳）: トランスフォーマーモデルはトークンの依存関係をキャプチャするために自己注意に頼っているが、マルチヘッドアテンション(MHA)の柔軟性を確保しながら、位置情報を効果的に統合するという課題に直面している。従来の手法では、意味的および位置的差異を異なる方法でモデル化したり、ヘッド間で均一な位置調整を施したりし、表現能力を制限する可能性がある。本稿では,複雑多面的注意-CMHAを特徴とするコンプレックスフォーマーを紹介する。 CMHAは、複雑な平面内で統合された意味的および位置的差異を独立にモデル化し、相互作用を回転とスケーリングとして表現する。 ComplexFormerは、(1) 頭ごとのEuler変換、(1) 頭ごとの複雑な部分空間演算のための実数値クエリ/キープロジェクションを極形複素ベクトルに変換する、(2) 頭ごとの適応微分回転機構 exp[i(Adapt(ASmn,i) + Delta(Pmn,i)] により、各頭が意味角差(ASmn,i)を相対的な位置エンコーディング(Delta(Pmn,i))と統合するための異なる戦略を学ぶことができる。言語モデリング、テキスト生成、コード生成、数学的推論に関する大規模な実験により、コンプレックスフォーマーは、RoPE-Transformerのような強力なベースラインと比較して、優れた性能、より低い生成パープレクシリティを実現し、長いコンテキストのコヒーレンスを改善した。 ComplexFormerは強力なパラメータ効率を示し、より表現力があり適応可能なアテンションメカニズムを提供する。

関連論文リスト

EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文参考訳（メタデータ） (2024-03-26T14:18:43Z)
Modality-Collaborative Transformer with Hybrid Feature Reconstruction for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。 MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文参考訳（メタデータ） (2023-12-26T01:59:23Z)
How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文参考訳（メタデータ） (2023-10-16T17:40:49Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
Improving the Sample-Complexity of Deep Classification Networks with Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文参考訳（メタデータ） (2022-02-08T16:16:11Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)
Co-domain Symmetry for Complex-Valued Deep Learning [34.16793679479781]
複素数値スケーリングは、対称性の一種であり、複素数値測定と表現に特有のものである。複素数値スケーリングを共ドメイン変換として解析し、この特殊な変換のための新しい同変・不変のニューラルネットワーク層関数を設計する。また、RGB画像の複雑な値の表現も提案し、複雑な値のスケーリングは色チャネル間の色変化や相関変化を示す。
論文参考訳（メタデータ） (2021-12-02T18:59:56Z)
X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文参考訳（メタデータ） (2021-06-04T04:32:02Z)
Cascaded Head-colliding Attention [28.293881246428377]
トランスフォーマーは、様々な重要なタスクにおいて自然言語処理(NLP)の分野を進歩させてきた。本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
論文参考訳（メタデータ） (2021-05-31T10:06:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。