論文の概要: The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling
- arxiv url: http://arxiv.org/abs/2603.07461v1
- Date: Sun, 08 Mar 2026 04:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.607463
- Title: The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling
- Title(参考訳): Dual-Stream Transformer: 解釈可能な言語モデリングのためのチャネル化アーキテクチャ
- Authors: J. Clayton Kerce, Alexis Fox,
- Abstract要約: 残差ストリームを2つの機能的に異なるコンポーネントに分解するDual-Stream Transformerを導入する。
言語モデリングタスクにおけるこのトレードオフを29Mパラメータで測定する。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard transformers entangle all computation in a single residual stream, obscuring which components perform which functions. We introduce the Dual-Stream Transformer, which decomposes the residual stream into two functionally distinct components: a token stream updated by attention and a context stream updated by feed-forward networks. Information flow between attention heads is controlled through a hierarchy of mixing strategies, from fully independent (maximum interpretability) to dense (standard transformer behavior). This design exposes a tunable tradeoff between interpretability and performance. We measure this tradeoff on language modeling tasks at 29M parameters. Fully independent head mixing increases validation loss by 8\% relative to dense baselines. The recommended Kronecker mixing strategy, which permits scalar communication between heads while preserving within-head structure, costs only 2.5\%. All configurations maintain functional generation under attention amplification (scaling logits by factors up to 16 at inference time), with degradation ranging from 16\% to 27\%. This robustness suggests the architectures learn discrete algorithms that operate independently of soft probabilistic mixing. The architecture provides a foundation for interpretable language models where internal structure is exposed by design. \footnote{This work was partially supported by DARPA Contract HR001125C0302.}
- Abstract(参考訳): 標準変圧器は、全ての計算を1つの残差ストリームに絡み合わせることで、どのコンポーネントがどの機能を実行するかを隠蔽する。
本稿では,Dual-Stream Transformerを導入し,残差ストリームを注目によって更新されたトークンストリームと,フィードフォワードネットワークによって更新されたコンテキストストリームという,機能的に異なる2つのコンポーネントに分解する。
注目ヘッド間の情報フローは、完全独立(最大解釈可能性)から高密度(標準変換器の振る舞い)までの混合戦略の階層によって制御される。
この設計は、解釈可能性と性能の間の調整可能なトレードオフを露呈する。
言語モデリングタスクにおけるこのトレードオフを29Mパラメータで測定する。
完全独立なヘッドミキシングは、密度ベースラインに対してバリデーション損失を8\%増加させる。
頭内構造を保ちながら頭部間のスカラー通信を可能にするKronecker混合戦略は、わずか2.5\%である。
すべての構成は、注目アンプリフィケーションの下で機能生成を保持し(推論時に最大16までのロジットをスケーリングする)、分解率は16\%から27\%である。
この堅牢性は、アーキテクチャがソフト確率混合とは独立して動作する離散アルゴリズムを学ぶことを示唆している。
このアーキテクチャは、内部構造が設計によって露出される、解釈可能な言語モデルの基礎を提供する。
この作業はDARPA Contract HR001125C0302によって部分的に支援された。
関連論文リスト
- Interpretable-by-Design Transformers via Architectural Stream Independence [1.2891210250935148]
アーキテクチャの制約がアーキテクチャストリームの独立性を通じて設計による解釈可能性を高めることができるかどうかを検討する。
最終層全体を通して解釈可能なシンボリックヘッドを示すLate Fusion Architecture (LFA) を通じて、この原則を検証する。
我々は,この効果を,それぞれ$PDS_max$ = 0.276,0.058のToken-Position Dependence Score (PDS)を導入して定量化する。
論文 参考訳(メタデータ) (2026-03-08T05:44:18Z) - Hybrid Dual-Path Linear Transformations for Efficient Transformer Architectures [0.0]
本稿では,アフィン変換を2つのトポロジカルな経路に分解するHybrid Dual-Path Linear (HDPL)演算子について紹介する。
FineWeb-Eduデータセットの実験では、HDPLアーキテクチャが標準のLlamaスタイルのベースラインより優れていることが示されている。
本稿では,トランスフォーマーのバックボーン内での確率的潜在空間の明示的な物質化が,重要な建築的余裕として果たす役割について論じる。
論文 参考訳(メタデータ) (2026-02-05T20:16:10Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition [63.93802691275012]
グローバル・ローカル・ダイナミクスを同時に学習するための軽量なデュアル・ダイナミック・トケン・ミキサー(D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1K分類では、TransXNet-TはSwin-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Cascaded Head-colliding Attention [28.293881246428377]
トランスフォーマーは、様々な重要なタスクにおいて自然言語処理(NLP)の分野を進歩させてきた。
本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
論文 参考訳(メタデータ) (2021-05-31T10:06:42Z) - Reciprocal Adversarial Learning via Characteristic Functions [12.961770002117142]
GAN(Generative Adversarial Nets)は、複雑な分散を伴うタスクに好まれるツールである。
特徴関数(CF)を用いて分布を時間ではなく時間的に比較する方法を示す。
次に、逆数が存在する場合の埋め込み領域とデータ領域の等価性を証明し、自動エンコーダ構造で自然にGANを開発する。
この効率的な構造は、単純なトレーニング戦略とともに2つのモジュールのみを使用して、双方向で鮮明な画像を生成する。
論文 参考訳(メタデータ) (2020-06-15T14:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。