論文の概要: Hybrid Dual-Path Linear Transformations for Efficient Transformer Architectures
- arxiv url: http://arxiv.org/abs/2602.07070v1
- Date: Thu, 05 Feb 2026 20:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.42046
- Title: Hybrid Dual-Path Linear Transformations for Efficient Transformer Architectures
- Title(参考訳): 効率的な変換器アーキテクチャのためのハイブリッドデュアルパス線形変換
- Authors: Vladimer Khasia,
- Abstract要約: 本稿では,アフィン変換を2つのトポロジカルな経路に分解するHybrid Dual-Path Linear (HDPL)演算子について紹介する。
FineWeb-Eduデータセットの実験では、HDPLアーキテクチャが標準のLlamaスタイルのベースラインより優れていることが示されている。
本稿では,トランスフォーマーのバックボーン内での確率的潜在空間の明示的な物質化が,重要な建築的余裕として果たす役割について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard Transformer architectures rely heavily on dense linear transformations, treating feature projection as a monolithic, full-rank operation. We argue that this formulation is inefficient and lacks the structural inductive bias necessary for distinguishing between local feature preservation and global context integration. To address this, we introduce the Hybrid Dual-Path Linear (HDPL) operator, which decomposes the affine transformation into two topologically distinct pathways: a sparse block-diagonal component for high-rank local processing, and a low-rank Variational Autoencoder (VAE) bottleneck for global context regularization. By "surgically" replacing specific projections (Query, Key, Value, Gate, Up) with HDPL operators while retaining standard dense layers for aggregation (Output, Down), we achieve a superior balance of efficiency and representational power. Experiments on the FineWeb-Edu dataset demonstrate that the HDPL architecture outperforms a standard Llama-style baseline, reducing validation loss while simultaneously reducing parameter count by 6.8%. Beyond immediate performance gains, we discuss how the explicit materialization of a probabilistic latent space within the Transformer backbone serves as a vital architectural affordance, offering new pathways for inference-time or hypernetwork induced control, continual adaptation, interpretability, and cross-model or cross-modal synchronization. The code is available at https://github.com/VladimerKhasia/HDPL
- Abstract(参考訳): 標準的なトランスフォーマーアーキテクチャは高密度線形変換に大きく依存しており、特徴投影をモノリシックでフルランクな操作として扱う。
この定式化は非効率であり、局所的な特徴保存とグローバルな文脈統合の区別に必要な構造的帰納バイアスを欠いていると我々は主張する。
これを解決するために,Hybrid Dual-Path Linear (HDPL)演算子を導入し,アフィン変換を2つのトポロジカルな経路に分解する。
特定のプロジェクション(クエリ、キー、バリュー、ゲート、アップ)をHDPL演算子に置き換えると同時に、アグリゲーション(アウトプット、ダウン)のための標準的な高密度なレイヤを保持することで、効率と表現力のバランスが良くなります。
FineWeb-Eduデータセットの実験では、HDPLアーキテクチャは標準のLlamaスタイルのベースラインよりも優れており、バリデーション損失を低減し、パラメータカウントを6.8%削減している。
即時的な性能向上に加えて,トランスフォーマーバックボーン内の確率的潜在空間の明示的な物質化が,推論時間やハイパーネットワークによる制御,連続的適応,解釈可能性,クロスモデルあるいはクロスモーダル同期のための新たな経路を提供する上で,重要なアーキテクチャ的余裕となるかについて議論する。
コードはhttps://github.com/VladimerKhasia/HDPLで公開されている。
関連論文リスト
- GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - Pieceformer: Similarity-Driven Knowledge Transfer via Scalable Graph Transformer in VLSI [10.727382706747592]
Pieceformerはスケーラブルで自己管理型の類似性評価フレームワークである。
平均絶対誤差(MAE)を24.9%削減する。
すべての実世界のデザイングループを正しくクラスタ化する唯一の方法である。
論文 参考訳(メタデータ) (2025-06-18T22:47:09Z) - GITO: Graph-Informed Transformer Operator for Learning Complex Partial Differential Equations [0.0]
複素偏微分方程式系を学習するための新しいグラフインフォームド・トランスフォーマ演算子(GITO)アーキテクチャを提案する。
GITOは、HGT(Hybrid graph transformer)とTNO(Transformer Neural operator)の2つの主要モジュールから構成される。
ベンチマークPDEタスクの実験的結果は、GITOが既存のトランスフォーマーベースのニューラル演算子より優れていることを示している。
論文 参考訳(メタデータ) (2025-06-16T18:35:45Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution [6.857919231112562]
ウィンドウベーストランスは超高解像度タスクにおいて優れた性能を示した。
畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。
線形適応ミキサーネットワーク(LAMNet)という,畳み込みに基づくトランスフォーマーフレームワークを構築する。
論文 参考訳(メタデータ) (2024-09-26T07:24:09Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。