論文の概要: Revisiting Auxiliary Losses for Conditional Depth Routing: An Empirical Study
- arxiv url: http://arxiv.org/abs/2604.17228v1
- Date: Sun, 19 Apr 2026 03:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.404336
- Title: Revisiting Auxiliary Losses for Conditional Depth Routing: An Empirical Study
- Title(参考訳): 条件付き深さルーティングにおける補助的損失の再検討 : 実証的研究
- Authors: Qingwei Lin,
- Abstract要約: ゲート決定は、言語モデリング(LM)の損失に影響を与える前に、多くのレイヤを通して伝播しなければならない。
補助的な損失はトレーニングを安定させるために積み重ねられることが多いが、それらの間の相互作用、特に予測的な補助的なスコアと明示的なスコアの監督の間の相互作用は、制御された条件下で体系的に比較されていない。
これは、後続のすべてのレイヤがフルに実行されると仮定する、オフポリティのオラクルラベルにトレースしますが、ゲートされた実行ルートはフルに1分しかありません。
- 参考スコア(独自算出の注目度): 31.968379218484746
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conditional depth execution routes a subset of tokens through a lightweight cheap FFN while the remainder execute the standard full FFN at each controlled layer. The central difficulty is gate training: the gate decision must propagate through many layers before it influences the language modeling (LM) loss, so the resulting gradients are weak and noisy. Auxiliary losses are commonly stacked to stabilise training, yet the interactions among them -- particularly between a predictive auxiliary and explicit score supervision -- have not been systematically compared under controlled conditions. We evaluate two gate designs under a 157.5M-parameter decoder-only model with controller-only training, 50% full-path budget, and 3-seed runs on a fineweb-edu subset. The MLP gate (G1) maps the current hidden state to a utility score; the JEPA-guided gate (G3) adds an action-conditional predictor that forecasts, in a low-dimensional latent space, the outcome of executing full vs. cheap per token, aligned against a fixed target head. Under the standard recipe with oracle-style utility regression and pairwise rank supervision (util/rank), G3 improves early-to-mid optimisation over G1 in 3/3 seeds (lower avg LM, faster threshold hits, ~10.3x lower grad norms), with 20k-step endpoint LM within a 0.005 heuristic reference. A key finding (ablation A3): jointly removing util/rank improves best/avg LM and threshold-hit speed in 3/3 seeds for both gates, and the early-to-mid advantage of G3 over G1 disappears. We trace this to an off-policy oracle label that assumes all subsequent layers execute full, whereas gated execution routes only a fraction through full -- making util/rank net-negative under the current recipe. Removing util/rank also cuts the training FLOPs proxy from ~1.53x to ~1.07x full-only (2.87h to 1.75h on a V100-32GB, ~39%). Conclusions are scoped to the studied regime.
- Abstract(参考訳): 条件深度実行は、トークンのサブセットを軽量のFFNを介してルーティングし、残りは各制御層で標準完全FFNを実行する。
ゲート決定は言語モデリング(LM)の損失に影響を与える前に多くの層を通して伝播しなければならないため、結果として生じる勾配は弱くノイズが多い。
補助的な損失はトレーニングを安定させるために積み重ねられることが多いが、それらの間の相互作用、特に予測的な補助的なスコアと明示的なスコアの監督の間の相互作用は、制御された条件下で体系的に比較されていない。
コントローラのみのトレーニング,フルパス予算の50%,ファインWeb-eduサブセット上での3シード実行が可能な157.5Mパラメトリックデコーダのみのモデルで2つのゲート設計を評価した。
MLPゲート(G1)は、現在の隠蔽状態をユーティリティスコアにマッピングし、JEPA誘導ゲート(G3)は、低次元の潜在空間において、トークン当たりのフル対安価な実行結果が、固定されたターゲットヘッドに対して整列するアクション条件予測器を付加する。
G3は3/3シード(より低いavg LM、より速いしきい値のヒット、約10.3倍のグレードノルム)でG1の早期から中期の最適化を改善し、0.005ヒューリスティック参照では20kステップのエンドポイントLMを持つ。
鍵発見(アブレーションA3)は、両ゲートの3/3シードにおいて、ユーティリティ/ランクを併用除去することにより、最高の/avg LMとしきい値ヒット速度が向上し、G3のG1に対する早期から中期の優位性が消失する。
これは、後続のすべてのレイヤがフルに実行されると仮定する、オフポリティのオラクルラベルにトレースしますが、ゲートされた実行ルートはフルに1分しかありません -- 現在のレシピでは、ユーティリティ/ランクのネット陰性になります。
util/rankの削除により、トレーニング用FLOPプロキシは1.53xから1.07xまで(V100-32GBで2.87hから1.75h、約39%)削減される。
結論は研究体制に当てはまる。
関連論文リスト
- REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Late-Stage Generalization Collapse in Grokking: Detecting anti-grokking with Weightwatcher [1.6615337656760856]
ニューラルネットワークにおけるemphMemorizationは、正確な運用定義が欠如しており、しばしばグラッキングレジームから推測される。
我々は、このトレーニング体制において、未報告の第3段階である、エンファンティ・グロッキング(emphanti-grokking)、すなわち、一般化の後期崩壊を識別する。
論文 参考訳(メタデータ) (2026-02-02T22:09:14Z) - TARG: Training-Free Adaptive Retrieval Gating for Efficient RAG [46.122203287541005]
トレーニングフリーのAdaptive Retrieval Gating (TARG) は、ベースモデルからの短い非遅延ドラフトのみを使用していつ取得するかを決定する、単発のポリシーである。
NQ-Open、TriviaQA、PopQAでは、TARGは一貫して精度と効率のフロンティアをシフトさせる。
論文 参考訳(メタデータ) (2025-11-12T23:09:52Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。
グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。
我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文 参考訳(メタデータ) (2025-02-16T08:13:23Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。