論文の概要: No Free Swap: Protocol-Dependent Layer Redundancy in Transformers
- arxiv url: http://arxiv.org/abs/2605.16234v2
- Date: Mon, 18 May 2026 08:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.199022
- Title: No Free Swap: Protocol-Dependent Layer Redundancy in Transformers
- Title(参考訳): No Free Swap: トランスフォーマーにおけるプロトコル依存層冗長性
- Authors: Gabriel Garcia,
- Abstract要約: 事前訓練された変換器では、プロトコルギャップは、同じ評価器の下で複数の折りたたみで、どの層を安全に産み出すかを変えることができる。
8Bスケールで適合したWikiText-2契約の下では、交換誘導除去は同じ層予算で置き換え誘導されるよりも安全である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When researchers ask whether two transformer layers are "equivalent" for compression, they often conflate distinct tests. Replacement asks whether one layer's map can substitute for another's in place; interchange asks whether two layers approximately commute when their positions are swapped. Both are output-grounded swap-KL probes, but they need not agree: on pretrained transformers the protocol gap can change which layers look safe to prune by several-fold under the same evaluator, especially when replacement distances are high. We measure both protocols across checkpoints and architectures. On a Pythia training trajectory (410M and 1.4B), the replacement-interchange gap grows from initialization to convergence. Under one matched WikiText-2 contract at 8B scale, Qwen3-8B enters a divergent regime: interchange-guided removal is several-fold safer than replacement-guided at the same layer budgets, while Llama-3.1-8B ties the two protocols for pruning cost even though interchange KL is lower, showing metric gaps need not map one-to-one to removal. Before layer removal or merging, score both swap-KLs on the target checkpoint; the diagnostic requires only unlabeled forward passes.
- Abstract(参考訳): 研究者が2つの変圧器層が圧縮に「等価」かどうかを問うと、しばしば異なる試験を分割する。
リプレースメントは、あるレイヤのマップが別のレイヤに代用できるかどうかを尋ね、インターチェンジは2つのレイヤが配置が交換されたときにほぼ通勤するかどうかを尋ねる。
事前訓練されたトランスフォーマーでは、プロトコルギャップは、同じ評価器の下で、特に置換距離が高い場合に、何層でも安全なプーンのように見えるかを変更できる。
私たちはチェックポイントとアーキテクチャで両方のプロトコルを測定します。
ピチア訓練軌道 (410M, 1.4B) では, 交換交換ギャップは初期化から収束へと増大する。
一方、Llama-3.1-8Bは、交換KLが低いにもかかわらず2つのプロトコルを結び付け、計量ギャップを1対1で除去する必要がないことを示している。
層除去やマージの前に、ターゲットのチェックポイントでスワップ-KLのスコアを付ける。
関連論文リスト
- What Is the Minimum Architecture for Prolepsis? Early Irrevocable Commitment Across Tasks in Small Transformers [0.7310043452300737]
textbfprolepsisを導入します: トランスフォーマーが早期にコミットし、タスク固有のアテンションヘッドがコミットメントを持続し、レイヤがそれを修正します。
すべての実験は1つの消費者向けGPU(16,GB VRAM)で実行される
論文 参考訳(メタデータ) (2026-04-16T13:38:34Z) - How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models [0.0]
本稿では,アライメント学習言語モデルにおけるポリシールーティング機構のローカライズを行う。
中間層アテンションゲートは検出された内容を読み出し、深いヘッドをトリガーし、信号が拒絶に向かって押し上げられる。
論文 参考訳(メタデータ) (2026-04-06T03:20:37Z) - SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Route-DETR: Pairwise Query Routing in Transformers for Object Detection [11.46025964297103]
Detection Transformer (DETR) はオブジェクト検出のためのエンドツーエンドソリューションを提供する。
DETRは、複数のクエリが同じ位置に収束する非効率なクエリ競合に悩まされている。
本稿では,デコーダの自己アテンション層における適応的ペアワイズルーティングを通じて,これらの問題に対処するRoute-DETRを提案する。
論文 参考訳(メタデータ) (2025-12-15T20:26:58Z) - Learning to Skip the Middle Layers of Transformers [25.958907308877148]
本研究では,中間層から外方へ可変層をスキップする新しいアーキテクチャを提案する。
特に、学習ゲーティング機構は、入力に基づいて中央ブロックの対称スパンをバイパスするかを決定する。
提案手法は, 層数が少なくて高密度なベースラインに比べて, 検証エントロピーと推定FLOPのトレードオフを改善することはできない。
論文 参考訳(メタデータ) (2025-06-26T09:01:19Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - End-to-End Lane detection with One-to-Several Transformer [6.79236957488334]
O2SFormerはResNet18バックボーンのDETRよりも12.5倍高速に収束する。
ResNet50のバックボーンを持つO2SFormerは、CULaneデータセット上で77.83%のF1スコアを獲得し、既存のTransformerベースおよびCNNベースの検出器を上回っている。
論文 参考訳(メタデータ) (2023-05-01T06:07:11Z) - Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection [98.66771688028426]
本研究では,一段階検出器のためのAmbiguity-Resistant Semi-supervised Learning (ARSL)を提案する。
擬似ラベルの分類とローカライズ品質を定量化するために,JCE(Joint-Confidence Estimation)を提案する。
ARSLは、曖昧さを効果的に軽減し、MS COCOおよびPASCALVOC上で最先端のSSOD性能を達成する。
論文 参考訳(メタデータ) (2023-03-27T07:46:58Z) - Mitigating the Mutual Error Amplification for Semi-Supervised Object
Detection [92.52505195585925]
擬似ラベルの修正機構を導入し,相互誤りの増幅を緩和するクロス・インストラクション(CT)手法を提案する。
他の検出器からの予測を直接擬似ラベルとして扱う既存の相互指導法とは対照的に,我々はラベル修正モジュール(LRM)を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:34:57Z) - Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers [72.38919601150175]
高オーバーラップオブジェクトをセグメント化するBilayer Convolutional Network (BCNet)を提案する。
BCNetはオクルージョンオブジェクト(Occluder)を検出し、ボトムGCN層は部分的にOccludedインスタンス(Occludee)を推論する
論文 参考訳(メタデータ) (2021-03-23T06:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。