Fugu-MT 論文翻訳(概要): Trust, but Verify: Peeling Low-Bit Transformer Networks for Training Monitoring

論文の概要: Trust, but Verify: Peeling Low-Bit Transformer Networks for Training Monitoring

arxiv url: http://arxiv.org/abs/2605.02853v1
Date: Mon, 04 May 2026 17:30:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:50.43268
Title: Trust, but Verify: Peeling Low-Bit Transformer Networks for Training Monitoring
Title（参考訳）: 信頼性、検証:モニタリングのトレーニングのための低ビットトランスフォーマーネットワーク
Authors: Arian Eamaz, Farhang Yeganegi, Mojtaba Soltanalian,
Abstract要約: 本稿では,各層がトレーニングされたモデルの表現に対して局所的に最適化される動的学習のための層ワイド剥離フレームワークを提案する。デコーダのみのトランスモデルの実験では、これらのレイヤワイド参照バウンダリが、様々な段階でトレーニングされたモデルにマッチしたり、超えたりできることを示している。
参考スコア（独自算出の注目度）: 20.854288216118423
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding whether deep neural networks are effectively optimized remains challenging, as training occurs in highly nonconvex landscapes and standard metrics provide limited visibility into layer-wise learning quality. This challenge is particularly acute for transformer-based language models, where training is expensive, models are often reused in frozen form, and poorly optimized layers can silently degrade performance. We propose a layer-wise peeling framework for monitoring training dynamics, in which each transformer layer is locally optimized against intermediate representations of the trained model. By constructing lightweight, layer-specific reference solutions and projecting layers onto multiple intermediate outputs via different permutations, we obtain achievable baselines that enable fine-grained diagnosis of under-optimized layers. Experiments on decoder-only transformer models show that these layer-wise reference bounds can match or even surpass the trained model at various stages of training, exposing inefficiencies that remain hidden in aggregate loss curves. We further demonstrate that this analysis remains effective under binarization and quantized settings, where training dynamics are particularly fragile. Across all numerical results, the proposed bounds consistently separate apparent convergence from effective optimality, highlighting optimization opportunities that are invisible when relying on training loss alone.
Abstract（参考訳）: ディープニューラルネットワークが効果的に最適化されているかどうかを理解することは依然として難しい。この課題は、トレーニングが高価であるトランスフォーマーベースの言語モデルでは特に深刻で、モデルはしばしば凍結した形で再利用される。本稿では,各トランス層をトレーニング対象モデルの中間表現に対して局所的に最適化する,トレーニングダイナミックスを監視するための層ワイズ剥離フレームワークを提案する。レイヤ固有の参照ソリューションを構築し,複数の中間出力に異なる置換によって投影することで,最適化されていないレイヤのきめ細かい診断を可能にする,達成可能なベースラインを得る。デコーダのみの変圧器モデルの実験では、これらのレイヤーワイド参照境界は訓練の様々な段階でトレーニングされたモデルと一致または超え、集合損失曲線に隠れた非効率性を明らかにすることができる。さらに、この分析はバイナライズと量子化設定の下でも有効であり、トレーニングダイナミクスは特に脆弱であることを示す。すべての数値結果において、提案した境界は、効果的最適性から明らかな収束を一貫して分離し、トレーニング損失のみに依存する場合の最適化の機会を強調している。

関連論文リスト

A Layer Separation Optimization Framework for Cross-Entropy Training in Deep Learning [17.37954084665439]
本稿では,ソフトマックスクロスエントロピー損失を用いたディープラーニング最適化問題について検討する。本稿では, 強非線形サブプロブレムを緩和するための層分離戦略を提案する。数値実験により提案手法の有効性が検証された。
論文参考訳（メタデータ） (2026-04-25T09:33:24Z)
Neural Network Optimization Reimagined: Decoupled Techniques for Scratch and Fine-Tuning [49.751529745537546]
我々はDualOptを提案する。DualOptは、スクラッチからトレーニングに適した最適化技術を分離する新しいアプローチである。スクラッチからのトレーニングでは、収束と一般化の両面を強化するために設計されたリアルタイムな層ワイド・ウェイト・デポジットを導入する。我々は、異なる下流タスクの様々な要求に適応して、レイヤ単位の重量減衰を拡張して、レイヤ間のロールバックレベルを動的に調整する。
論文参考訳（メタデータ） (2026-04-21T06:27:18Z)
Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization [56.95448807869383]
フェデレートラーニング(FL)は、プライバシを保存する分散機械学習の魅力的なパラダイムとして登場した。近年の研究では、FLシステムで交換される勾配もプライバシー漏洩に弱いことが報告されている。我々は textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD) を提案する。
論文参考訳（メタデータ） (2026-04-01T14:32:15Z)
Noise-Adaptive Layerwise Learning Rates: Accelerating Geometry-Aware Optimization for Deep Neural Network Training [31.259303817974693]
幾何認識最適化アルゴリズム上に,雑音適応型層別学習率スキームを導入する。提案手法は, 選択したLMOがフライ時に誘導する双対ノルムの勾配分散を推定する。我々のアルゴリズムは鋭い収束率を達成する。
論文参考訳（メタデータ） (2025-10-15T18:42:13Z)
Input Conditioned Layer Dropping in Speech Foundation Models [11.05223262950967]
層ドロップ(mathcalLD$)は、計算負荷を減らすために、推論中にバックボーンネットワークの層の一部をスキップする。本稿では,ネットワークの入力機能と,処理層の最適組み合わせを決定するための軽量層選択ネットワークを用いた入力駆動$mathcalLD$を提案する。
論文参考訳（メタデータ） (2025-07-10T17:39:03Z)
Hierarchical Feature-level Reverse Propagation for Post-Training Neural Networks [24.442592456755698]
エンド・ツー・エンドの自動運転は支配的なパラダイムとして現れてきたが、その高度に絡み合ったブラックボックスモデルは、解釈可能性と安全性の保証の観点から課題を提起している。本稿では,事前学習ニューラルネットワークに適した階層的かつ非結合なポストトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T15:19:03Z)
Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-08-03T21:49:14Z)
Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。フェデレートラーニングにおいて最も顕著に用いられている。私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文参考訳（メタデータ） (2023-07-13T09:39:10Z)
Initialization and Regularization of Factorized Neural Layers [23.875225732697142]
ディープネットにおける因子化層の初期化と規則化の方法を示す。これらのスキームが翻訳と教師なしプリトレーニングの両方のパフォーマンスを向上させる方法を示しています。
論文参考訳（メタデータ） (2021-05-03T17:28:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。