論文の概要: Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks
- arxiv url: http://arxiv.org/abs/2603.12354v1
- Date: Thu, 12 Mar 2026 18:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.719323
- Title: Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks
- Title(参考訳): 直交勾配流ユーティリティ:ディープネットワークにおける構造解析と動的ルーティングのための統一されたメトリクス
- Authors: Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski,
- Abstract要約: 交互勾配流(Alternating Gradient Flow, AGF)に着想を得た非結合型運動パラダイムを提案する。
AGFはネットワークの構造的「運動ユーティリティ」を正確にキャプチャする
我々は、AGFに誘導されるオフライン構造探索を、ゼロコストの物理プリミティブを介してオンライン実行から切り離すハイブリッドルーティングフレームワークを設計する。
- 参考スコア(独自算出の注目度): 49.68148244247448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient deep learning traditionally relies on static heuristics like weight magnitude or activation awareness (e.g., Wanda, RIA). While successful in unstructured settings, we observe a critical limitation when applying these metrics to the structural pruning of deep vision networks. These contemporary metrics suffer from a magnitude bias, failing to preserve critical functional pathways. To overcome this, we propose a decoupled kinetic paradigm inspired by Alternating Gradient Flow (AGF), utilizing an absolute feature-space Taylor expansion to accurately capture the network's structural "kinetic utility". First, we uncover a topological phase transition at extreme sparsity, where AGF successfully preserves baseline functionality and exhibits topological implicit regularization, avoiding the collapse seen in models trained from scratch. Second, transitioning to architectures without strict structural priors, we reveal a phenomenon of Sparsity Bottleneck in Vision Transformers (ViTs). Through a gradient-magnitude decoupling analysis, we discover that dynamic signals suffer from signal compression in converged models, rendering them suboptimal for real-time routing. Finally, driven by these empirical constraints, we design a hybrid routing framework that decouples AGF-guided offline structural search from online execution via zero-cost physical priors. We validate our paradigm on large-scale benchmarks: under a 75% compression stress test on ImageNet-1K, AGF effectively avoids the structural collapse where traditional metrics aggressively fall below random sampling. Furthermore, when systematically deployed for dynamic inference on ImageNet-100, our hybrid approach achieves Pareto-optimal efficiency. It reduces the usage of the heavy expert by approximately 50% (achieving an estimated overall cost of 0.92$\times$) without sacrificing the full-model accuracy.
- Abstract(参考訳): 効果的なディープラーニングは、伝統的に重量等級やアクティベーション意識(Wanda、RIAなど)のような静的ヒューリスティックに依存しています。
非構造的な環境では成功したが、深層視覚ネットワークの構造的プルーニングにこれらのメトリクスを適用する場合、重要な制限を観測する。
これらの現代の指標は、重要な機能的経路を維持するのに失敗し、大きさの偏りに悩まされている。
そこで本研究では,AGF(Alternating Gradient Flow)に着想を得た非結合型動的パラダイムを提案する。
まず, AGF が基底関数の保存に成功し, トポロジカルな正規化を図り, ゼロから訓練したモデルで見られる崩壊を避けた。
第2に、厳密な構造的先行性のないアーキテクチャへの移行により、視覚変換器(ViTs)におけるスパーシティ・ボトルネック現象を明らかにする。
勾配マグニチュードデカップリング解析により, 動的信号は収束モデルにおける信号圧縮に悩まされ, リアルタイムルーティングに最適であることがわかった。
最後に、これらの経験的制約によって駆動されるハイブリッドルーティングフレームワークを設計し、AGFに誘導されるオフライン構造探索を、ゼロコストの物理的事前処理によってオンライン実行から切り離す。
ImageNet-1Kの75%圧縮応力試験では,従来の基準値がランダムサンプリングを下回る構造的崩壊を効果的に回避する。
さらに、ImageNet-100上で動的推論のために系統的にデプロイする場合、我々のハイブリッドアプローチはパレート最適効率を実現する。
これにより、フルモデルの精度を犠牲にすることなく、ヘビーエキスパートの使用量を約50%削減する(総コストは0.92$\times$)。
関連論文リスト
- StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - SpanNorm: Reconciling Training Stability and Performance in Deep Transformers [55.100133502295996]
両パラダイムの強度を統合することでジレンマを解消する新しい手法であるSpanNormを提案する。
我々は、SpanNormと原則付きスケーリング戦略を組み合わせることで、ネットワーク全体にわたって有界信号のばらつきを維持できることを理論的に示す。
経験的に、SpanNormは、密集および混成実験(Mixture-of-Experts、MoE)のシナリオにおいて、標準正規化スキームを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T05:21:57Z) - TGSBM: Transformer-Guided Stochastic Block Model for Link Prediction [13.840265247620556]
リンク予測はWebエコシステムの基盤であり、リコメンデーションや検索から知識グラフの完成、コラボレーション予測までアプリケーションを動かす。
従来のグラフニューラルネットワークはグローバルな依存関係を捉えるのに苦労する一方で、最近のグラフトランスフォーマーは高いパフォーマンスを達成しているが、解釈可能な構造構造が欠如している。
重なり合うブロックモデルの原理的生成構造とスパースグラフ変換器のパワーを統合するフレームワークであるテキストガイドブロックモデルを提案する。
論文 参考訳(メタデータ) (2026-01-28T14:32:24Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Eigen Neural Network: Unlocking Generalizable Vision with Eigenbasis [5.486667906157719]
固有ニューラルネットワーク(Eigen Neural Network, ENN)は、各層の重みを再パラメータ化する新しいアーキテクチャである。
標準BPと統合すると、ENNは大規模画像分類ベンチマークにおける最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-02T06:33:58Z) - Physics-Informed Graph Neural Networks for Transverse Momentum Estimation in CMS Trigger Systems [0.0]
高エネルギー物理におけるリアルタイム粒子横運動量(p_T$)推定は、厳密なハードウェア制約の下で効率的なアルゴリズムを要求する。
本稿では,物理インフォームドグラフニューラルネットワーク(GNN)フレームワークを提案する。
我々の共同設計手法は、既存のベースラインに比べて精度と効率のトレードオフが優れている。
論文 参考訳(メタデータ) (2025-07-25T12:19:57Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - On skip connections and normalisation layers in deep optimisation [32.51139594406463]
本稿では、ディープニューラルネットワークの最適化研究のための一般的な理論的枠組みを紹介する。
本フレームワークは多層損失景観の曲率および規則性特性を決定する。
スキップ接続がトレーニングを加速する新しい因果メカニズムを同定する。
論文 参考訳(メタデータ) (2022-10-10T06:22:46Z) - Graph-based Algorithm Unfolding for Energy-aware Power Allocation in
Wireless Networks [27.600081147252155]
我々は,無線通信網におけるエネルギー効率を最大化する新しいグラフ要約フレームワークを開発した。
無線ネットワークデータのモデルに望ましい特性である置換訓練について述べる。
結果は、異なるネットワークトポロジにまたがる一般化可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T20:23:24Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。