論文の概要: Gradient Shaping Beyond Clipping: A Functional Perspective on Update Magnitude Control
- arxiv url: http://arxiv.org/abs/2510.01578v1
- Date: Thu, 02 Oct 2025 01:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.94226
- Title: Gradient Shaping Beyond Clipping: A Functional Perspective on Update Magnitude Control
- Title(参考訳): クラッピングを超えたグラディエントシェイピング:更新マグニチュード制御の機能的展望
- Authors: Haochen You, Baojing Liu,
- Abstract要約: SPAMP(Statistical Per-layer Adaptive Modulation and Projection)は、スムーズな層ごとの勾配形状にクリッピングを一般化する統一フレームワークである。
SPAMPは局所的な勾配統計を追跡し、しきい値を動的に推定し、電力ベースの変換を適用して、異なる方法で更新の規模を変調する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient clipping is widely used to stabilize deep network training, but its formulation as a hard, fixed threshold limits flexibility and ignores gradient distribution dynamics. We propose SPAMP (Statistical Per-layer Adaptive Modulation and Projection), a unified framework that generalizes clipping into smooth, per-layer gradient shaping. SPAMP tracks local gradient statistics, dynamically estimates thresholds, and applies power-based transformations to modulate update magnitudes in a differentiable manner. This perspective recasts clipping and warmup as dual mechanisms for controlling the effective update scale $\eta_t \|g_t\|$, offering a principled alternative to rigid heuristics. Extensive experiments across image and language tasks demonstrate that SPAMP improves stability, convergence, and robustness over existing methods.
- Abstract(参考訳): グラディエントクリッピングは、ディープネットワークトレーニングの安定化に広く用いられているが、その定式化は、ハードで固定された閾値制限の柔軟性であり、勾配分布のダイナミクスを無視する。
本研究では,スムーズな層ごとの勾配形状にクリッピングを一般化するSPAMP(Statistical Per-layer Adaptive Modulation and Projection)を提案する。
SPAMPは局所的な勾配統計を追跡し、しきい値を動的に推定し、電力ベースの変換を適用して、異なる方法で更新の規模を変調する。
この視点は、クリッピングとウォームアップを効果的な更新スケールを制御するための二重メカニズムとして再放送し、剛性ヒューリスティックスの原則的な代替手段を提供する。
画像および言語タスクにわたる広範な実験は、SPAMPが既存の手法よりも安定性、収束性、堅牢性を向上させることを示した。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models [21.16132396642158]
訓練安定性は、大規模言語モデル(LLM)の事前学習における永続的な課題である
完全連結層における重み行列のスケールと分布を明示的に分離し,トレーニングを安定させる手法として,SDD(Scale-Distribution Decoupling)を提案する。
論文 参考訳(メタデータ) (2025-02-21T14:49:34Z) - Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation [36.308936312224404]
本稿では, FO-MBRLアルゴリズムであるAdaptive Horizon Actor-Critic (AHAC)を提案する。
実験結果から,AHACはMFRLベースラインより優れており,ローコモーションタスク全体で40%以上の報酬が得られ,壁面時間効率が向上した高次元制御環境への効率なスケーリングが可能であった。
論文 参考訳(メタデータ) (2024-05-28T03:28:00Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - SDGMNet: Statistic-based Dynamic Gradient Modulation for Local
Descriptor Learning [44.69439245287881]
本稿では,局所記述子学習における三重項損失を改善するためにSDGMNetという動的勾配変調を提案する。
本稿では,一般的な三重項に基づく損失のバック伝播に関する深い解析を行い,距離測定のための包含角度を導入する。
我々の新しい記述子は、パッチ検証、マッチング、検索タスクを含む標準ベンチマークにおける過去の最先端技術を上回っている。
論文 参考訳(メタデータ) (2021-06-08T15:10:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。