論文の概要: Directional Routing in Transformers
- arxiv url: http://arxiv.org/abs/2603.14923v1
- Date: Mon, 16 Mar 2026 07:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.132443
- Title: Directional Routing in Transformers
- Title(参考訳): 変圧器の方向制御
- Authors: Kevin Taylor,
- Abstract要約: 指向性ルーティングは、共有ルータによって制御される各トランスフォーマーアテンションヘッド学習抑制方向を提供する軽量なメカニズムである。
結果の回路を機械的解釈可能性によってトレースする。
ルーティングは、ベースラインに対するパープレキシティを31~56%削減するが、下流の多重選択ベンチマークはまだこれらの利得を反映していない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce directional routing, a lightweight mechanism that gives each transformer attention head learned suppression directions controlled by a shared router, at 3.9% parameter cost. We train a 433M-parameter model alongside an identical baseline in a single run, then trace the resulting circuits through mechanistic interpretability. Routing becomes the model's dominant computational pathway. Disabling it collapses factual recall to near-zero probability across all 8 test prompts and drops induction accuracy from 93.4% to 0.0%. Knocking out individual attention heads has negligible effect: the primary mover head's removal actually increases target probability, and induction heads retain 98.6% accuracy without their strongest member. The coordination mechanism is irreplaceable; the components it coordinates are not. The model also self-organizes, without explicit pressure, into two regimes: domain-adaptive routing in early layers and fixed syntactic pruning in late layers, where the least-varying layer is the most critical (+42.6 PPL when disabled). Routing reduces perplexity 31-56% relative to the baseline, though downstream multiple-choice benchmarks do not yet reflect these gains.
- Abstract(参考訳): 共用ルータによって制御される各トランスフォーマーの注目ヘッド学習抑制方向を3.9%のパラメータコストで提供する軽量なメカニズムである指向性ルーティングを導入する。
1回のランで同一のベースラインと共に433Mパラメータモデルをトレーニングし、機械的解釈可能性を通じて回路をトレースする。
ルーティングはモデルの主要な計算経路となる。
無効化は、8つのテストプロンプトのすべてにおいて、事実上のリコールをほぼゼロの確率に崩壊させ、誘導精度を93.4%から0.0%に下げる。
プライマリ・モービルヘッドの除去はターゲットの確率を実際に増加させ、誘導ヘッドは最強の部材を使わずに98.6%の精度で保持する。
調整機構は変更不可能であり、調整するコンポーネントはそうではない。
モデルはまた、明示的な圧力なしで、初期層におけるドメイン適応的ルーティングと、最も重要でない層(障害時に+42.6 PPL)において、後期層における固定された構文的プルーニングの2つのレギュレーションに自己組織化する。
ルーティングはベースラインに対するパープレキシティを31~56%削減するが、下流の多重選択ベンチマークはまだこれらの上昇を反映していない。
関連論文リスト
- The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers [0.0]
言語モデルの層が連続的な信号のバイナリルーティングを行うことを示す。
特定のニューロンは93-98%の相互排他的なコンセンサスアーキテクチャを実装している。
本稿では,ディープネットワークの高機能な特徴付けをルーティング特徴付けによって補うことを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:14:57Z) - Multi-Head Attention as a Source of Catastrophic Forgetting in MoE Transformers [28.800065959523696]
Mixture-of-Experts (MoE)アーキテクチャは、継続的学習に適していると考えられていることが多い。
本稿では,MH-MoEを提案する。このMH-MoEは,部分表現を頭部的にルーティングすることで,ルーティングの粒度を増大させ,合成衝突を低減する。
論文 参考訳(メタデータ) (2026-02-13T03:59:09Z) - Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat [0.0]
疎い注意がエンドツーエンドにトレーニングされると、モデルのQ/K/V投影は、どんなマスクにも適応する。
微分可能なソフトゲーティングは、ゲートが学習されているかランダムであるかに関わらず、ほぼ同じ難易度に収束する。
専門家はどのルーターにも適応するが、注意は構造的により厳しい形を示すことを示している。
論文 参考訳(メタデータ) (2026-02-11T15:06:44Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - Retrosynthetic Planning with Dual Value Networks [107.97218669277913]
我々は、PDVN(Planning with Dual Value Networks)と呼ばれる新しいオンライントレーニングアルゴリズムを提案する。
PDVNは計画段階と更新段階を交互に行い、分子の合成性とコストを予測する。
広く使われているUSPTOデータセットでは、PDVNアルゴリズムが既存のマルチステッププランナの探索成功率を改善する。
論文 参考訳(メタデータ) (2023-01-31T16:43:53Z) - Delta Keyword Transformer: Bringing Transformers to the Edge through
Dynamically Pruned Multi-Head Self-Attention [4.925939498983408]
マルチヘッド自己アテンションはトランスフォーマーネットワークのコアを形成する。
本稿では,トークン間のデータの時間的安定性を利用して推論コストを削減する動的プルーニング手法を提案する。
実験の結果,元の98.4%の精度を維持しながら80%の操作を削減できることがわかった。
論文 参考訳(メタデータ) (2022-03-20T20:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。