論文の概要: Complex-Valued Phase-Coherent Transformer
- arxiv url: http://arxiv.org/abs/2605.10123v1
- Date: Mon, 11 May 2026 07:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.608297
- Title: Complex-Valued Phase-Coherent Transformer
- Title(参考訳): 複素値位相コヒーレント変圧器
- Authors: Leona Hioki,
- Abstract要約: 位相コヒーレント変換器 (PCT) は、L2正規化複合クエリキー類似性に対する実数値要素に依存しない滑らかなゲートである。
PCTは、標準のソフトマックストランスフォーマーと、その直接の複雑な値の両方を一貫して上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex-valued Transformers have largely inherited softmax attention from real-valued architectures. However, row-normalised token competition is not necessarily aligned with phase-preserving computation. In this paper, we introduce the Phase-Coherent Transformer (PCT), which applies a real-valued, element-independent, smooth gate to L2-normalised complex query-key similarities. PCT replaces token competition with token-non-competing attention and is designed to preserve phase information across layers. Across mid-scale benchmarks spanning long-range memory, hierarchical long-range reasoning, positional retrieval, phase-based memory and superposition, and image classification, PCT shows strong generalisation across task categories. Under parameter-fair comparison, PCT consistently outperforms both the standard softmax Transformer and its direct complex-valued counterpart. Moreover, even on tasks traditionally considered difficult for complex-valued neural networks, such as NIAH and LRA-Text, PCT remains competitive with Multiscreen, the strongest real-valued NN baseline in our comparison. Experiments introducing gates that deliberately violate the PCT conditions show that the design is not incidental: smooth gates that preserve negatively aligned phase components remain strong, whereas gates that delete such components collapse on long-range retrieval, and gates whose outputs become excessively large suffer clear performance degradation. PCT also shows no depth-related accuracy collapse across the tested depth range. These results support introducing multi-layer phase-coherent structure into attention as a promising design principle for achieving generalisation in complex-valued Transformers.
- Abstract(参考訳): 複雑な価値を持つトランスフォーマーは、実際の価値を持つアーキテクチャからソフトマックスの注意を引き継いだ。
しかし、行正規化トークン競合は、必ずしも位相保存計算と一致しない。
本稿では,L2正規化複雑なクエリキー類似性に対して,実数値,要素非依存,滑らかなゲートを適用した位相コヒーレント変換器(PCT)を提案する。
PCTはトークン競合をトークン非競合の注意に置き換え、レイヤ間のフェーズ情報を保存するように設計されている。
中規模のベンチマークでは、長距離メモリ、階層的長距離推論、位置検索、位相ベースのメモリと重ね合わせ、画像分類など、タスクカテゴリにまたがる強力な一般化が示されている。
パラメータ・フェア比較では、PCTは標準ソフトマックス変換器と直接複素値の両性能を一貫して上回っている。
さらに、NAAHやLRA-Textのような複雑な数値ニューラルネットワークでは、従来から難しいと考えられてきたタスクでも、PCTは、我々の比較において最強の実数値NNベースラインであるMultiscreenと競合し続けている。
PCT条件に意図的に違反するゲートを導入する実験は、設計が偶発的ではないことを示している: 負に整列した位相成分を保持する滑らかなゲートは強いままであり、一方、そのような成分を除去するゲートは長距離検索で崩壊し、出力が過大になるゲートは明らかに性能劣化する。
PCTはまた、試験深度範囲にわたって深度関連精度の崩壊を示さない。
これらの結果は,多層位相コヒーレント構造の導入を,複素数値変換器の一般化を実現するための有望な設計原理として支持する。
関連論文リスト
- Late Breaking Results: Hardware-Aware Compilation Reshapes Trainability in Variational Quantum Circuits [2.717526933594264]
実際の量子デバイス上での実行には、キュービット接続とネイティブゲートセット制約を満たすためにハードウェア対応のコンパイル(トランスパイレーション)が必要である。
本稿では,トランスパイルが勾配統計をどのように変化させるかを検討する。
論文 参考訳(メタデータ) (2026-04-16T14:08:02Z) - Hybrid Dual-Path Linear Transformations for Efficient Transformer Architectures [0.0]
本稿では,アフィン変換を2つのトポロジカルな経路に分解するHybrid Dual-Path Linear (HDPL)演算子について紹介する。
FineWeb-Eduデータセットの実験では、HDPLアーキテクチャが標準のLlamaスタイルのベースラインより優れていることが示されている。
本稿では,トランスフォーマーのバックボーン内での確率的潜在空間の明示的な物質化が,重要な建築的余裕として果たす役割について論じる。
論文 参考訳(メタデータ) (2026-02-05T20:16:10Z) - Plain Transformers are Surprisingly Powerful Link Predictors [57.01966734467712]
リンク予測はグラフ機械学習における中核的な課題であり、リッチで複雑なトポロジ的依存関係をキャプチャするモデルを必要とする。
グラフニューラルネットワーク(GNN)が標準的なソリューションであるのに対して、最先端のパイプラインは明示的な構造やメモリ集約的なノードの埋め込みに依存していることが多い。
本報告では,手作りのプリミティブに置き換えるエンコーダのみのプレーントランスであるPENCILについて,サンプリングしたローカルサブグラフに注目する。
論文 参考訳(メタデータ) (2026-02-02T02:45:52Z) - Hierarchical Shift Mixing -- Beyond Dense Attention in Transformers [0.0]
我々は、Transformer層にまたがる相互トークンの相互作用を分散するトークンミキシングフレームワークであるHSMを紹介する。
HSMは特定の混合関数に留まりながら線形時間複雑性を可能にする。
単純なHSMの変種であっても,ソフトマックスの注目度に近い性能が得られることを示す。
論文 参考訳(メタデータ) (2026-01-30T11:23:14Z) - Fast attention mechanisms: a tale of parallelism [52.7657529272906]
準四分法的時間複雑性を有する近似近傍注意(ANNA)という,効率的な注意機構を導入する。
我々は,ANNA変換器が従来確立されていた表現力を維持し,MPCアルゴリズムの能力に適合することを示す。
論文 参考訳(メタデータ) (2025-09-10T20:59:44Z) - What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains [64.31313691823088]
インコンテキスト学習(ICL)は、入力コンテキストからの情報を活用することで、訓練されたモデルが新しいタスクに適応することを学習するトランスフォーマーの能力である。
1層に1つの頭を持つ2層トランスは、実際に任意の条件k-gramを表現可能であることを示す。
論文 参考訳(メタデータ) (2025-08-10T07:03:01Z) - Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。
本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。
このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文 参考訳(メタデータ) (2025-01-06T06:34:52Z) - Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction [29.12836710966048]
本稿では,トークン数に応じて計算複雑性が線形にスケールする新しいトランスフォーマーアテンション演算子を提案する。
本研究は, トランスフォーマーアーキテクチャの成功に対して, ペアワイズ類似性スタイルの注意機構が重要であるという従来の知恵に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2024-12-23T18:59:21Z) - Multi-Pass Transformer for Machine Translation [51.867982400693194]
我々は、後続のレイヤの出力に照らして、以前のレイヤが情報を処理できるマルチパストランスフォーマー(MPT)アーキテクチャについて検討する。
MPTは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンはEn-Frの性能も向上する。
論文 参考訳(メタデータ) (2020-09-23T21:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。