Fugu-MT 論文翻訳(概要): A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

論文の概要: A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

arxiv url: http://arxiv.org/abs/2605.04055v1
Date: Fri, 10 Apr 2026 02:56:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 06:56:26.540504
Title: A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay
Title（参考訳）: グループ適応学習率と軽量化を考慮した自己認識型メタオプティマイザ
Authors: JiangBo Zhao, ZhaoXin Liu,
Abstract要約: 本稿では,グループごとの学習率と重み劣化を動的に変調する自己認識機構を統合する新しい変調法を提案する。注意モジュールのトレーニングには,勾配アライメント,損失減少,ギャップを組み合わせたメタ学習手法を導入する。重要な新しい貢献は、正則化項を直接スケールするタスク固有の優先順位を持つホモスセダスティック不確実性重み付け(HUW)の拡張である。
参考スコア（独自算出の注目度）: 0.42970700836450487
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adaptive optimizers like AdamW apply uniform hyperparameters across all parameter groups, ignoring heterogeneous optimization dynamics across layers and modules. We address this limitation by proposing MetaAdamW - a new optimizer that integrates a self-attention mechanism to dynamically modulate per-group learning rates and weight decay. The modulation factors are produced by a lightweight Transformer encoder that operates on statistical features (gradient norms, momentum norms, correlations) extracted from each parameter group. To train the attention module, we introduce a meta-learning objective that combines gradient alignment, loss decrease, and generalization gap. A key novel contribution is the extension of homoscedastic uncertainty weighting (HUW) with task-specific priorities that directly scale the regularization terms - enabling domain knowledge to guide automatic loss balancing. Extensive experiments on five diverse tasks-time series forecasting (ETT), language modeling (WikiText-2), machine translation (Multi30k), image classification (CIFAR-10), and sentiment analysis (IMDB) - demonstrate that MetaAdamW consistently outperforms the standard AdamW baseline in terms of validation loss, accuracy, or perplexity. Depending on the task, MetaAdamW either reduces overall training time (by up to 17.11%) or improves performance (by up to 11.08%) while introducing only moderate overhead; in some cases, it can also mitigate issues of insufficient convergence caused by premature early stopping. Ablation studies validate the effectiveness of each component, including feature versions, grouping strategies, and the proposed priority-injected uncertainty weighting.
Abstract（参考訳）: AdamWのような適応オプティマイザは、すべてのパラメータグループに均一なハイパーパラメータを適用し、レイヤやモジュール間の不均一な最適化のダイナミクスを無視します。グループごとの学習率と重み劣化を動的に調節する自己注意機構を統合した新しいオプティマイザであるMetaAdamWを提案することで、この制限に対処する。変調係数は、各パラメータ群から抽出された統計的特徴(漸進ノルム、運動量ノルム、相関)に基づいて動作する軽量トランスフォーマーエンコーダによって生成される。注意モジュールのトレーニングには,勾配アライメント,損失減少,一般化ギャップを組み合わせたメタ学習手法を導入する。重要な新しいコントリビューションは、整合化用語を直接スケールするタスク固有の優先順位を持つ、相補的不確実性重み付け(HUW)の拡張である。 5つの多様なタスク時間系列予測(ETT)、言語モデリング(WikiText-2)、機械翻訳(Multi30k)、画像分類(CIFAR-10)、感情分析(IMDB)に関する大規模な実験は、MetaAdamWが検証損失、精度、難易度で標準のAdamWベースラインを一貫して上回っていることを示した。タスクによっては、MetaAdamWはトレーニング時間(最大17.11%)を短縮するか、パフォーマンス(最大11.08%)を向上する一方、緩やかなオーバーヘッドしか導入しない。アブレーション研究は、特徴バージョン、グループ化戦略、提案された優先度注入不確実性重み付けを含む各コンポーネントの有効性を検証する。

関連論文リスト

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks [17.067788440109137]
現在、Mixture-of-Experts (MoE)モデルは最先端システムでは標準となっている。記憶能力と推論能力の2つの異なる能力体制にMoEがどのような影響を及ぼすかを検討する。
論文参考訳（メタデータ） (2025-08-26T04:31:28Z)
Singular Value Decomposition on Kronecker Adaptation for Large Language Model [0.8747606955991707]
大規模な事前訓練されたトランスフォーマーモデルは、様々な言語や推論タスクにまたがって最先端の結果が得られる。完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを発生させる。我々は, Kronecker-product tensor factorization と SVD-driven initialization と Dynamic rank selection を組み合わせた新しい PEFT 戦略である SoKA を提案する。
論文参考訳（メタデータ） (2025-06-18T08:28:53Z)
Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文参考訳（メタデータ） (2025-06-16T07:55:14Z)
Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。 SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文参考訳（メタデータ） (2025-06-01T15:30:37Z)
Beyond Freezing: Sparse Tuning Enhances Plasticity in Continual Learning with Pre-Trained Models [10.904981532789824]
事前訓練されたモデルによる継続的な学習は、シーケンシャルなタスクにまたがる効率的な適応を大いに約束する。既存のアプローチはPTMを凍結し、プロンプトやアダプタのような補助モジュールに依存している。 MIST(Mutual Information-Guided Sparse Tuning)は,PTMパラメータのサブセットを選択的に更新するプラグイン・アンド・プレイ方式である。
論文参考訳（メタデータ） (2025-05-26T13:09:25Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文参考訳（メタデータ） (2024-11-10T19:59:54Z)
META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for Unbounded Functions [23.746620619512573]
最近の研究は「メガバッチ」の勾配を計算する効果を克服している作業は、競争力のあるディープラーニングタスクで更新された後に広く使用される。
論文参考訳（メタデータ） (2022-09-29T15:12:54Z)
Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文参考訳（メタデータ） (2022-04-08T20:46:16Z)
Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。 GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文参考訳（メタデータ） (2021-01-06T17:36:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。