Fugu-MT 論文翻訳(概要): Joint Training Across Multiple Activation Sparsity Regimes

論文の概要: Joint Training Across Multiple Activation Sparsity Regimes

arxiv url: http://arxiv.org/abs/2603.03131v1
Date: Tue, 03 Mar 2026 16:03:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.873698
Title: Joint Training Across Multiple Activation Sparsity Regimes
Title（参考訳）: 複数のアクティベーション・スパーシティ・レジームを横断する共同トレーニング
Authors: Haotian Wang,
Abstract要約: ディープニューラルネットワークの一般化は、部分的にしか理解されていない。隠れたアクティベーションにグローバルなトップk制約を適用する簡単なトレーニング戦略を導入する。単走実験では,2つの適応型保持比制御戦略が高密度ベースライントレーニングより優れていることがわかった。
参考スコア（独自算出の注目度）: 3.5899643972057835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalization in deep neural networks remains only partially understood. Inspired by the stronger generalization tendency of biological systems, we explore the hypothesis that robust internal representations should remain effective across both dense and sparse activation regimes. To test this idea, we introduce a simple training strategy that applies global top-k constraints to hidden activations and repeatedly cycles a single model through multiple activation budgets via progressive compression and periodic reset. Using CIFAR-10 without data augmentation and a WRN-28-4 backbone, we find in single-run experiments that two adaptive keep-ratio control strategies both outperform dense baseline training. These preliminary results suggest that joint training across multiple activation sparsity regimes may provide a simple and effective route to improved generalization.
Abstract（参考訳）: ディープニューラルネットワークの一般化は、部分的にしか理解されていない。生体系のより強い一般化傾向に触発されて、我々は、頑健な内部表現は、密度と疎度の両方の活性化体制において有効であるべきだという仮説を探求する。そこで本研究では,グローバルなトップk制約を隠れアクティベーションに適用し,プログレッシブ圧縮と周期的リセットを通じて,複数のアクティベーション予算を通じて1つのモデルを繰り返し循環する,簡単なトレーニング戦略を提案する。データ強化のないCIFAR-10とWRN-28-4のバックボーンを用いて、高密度ベースライントレーニングより2つの適応型保持比制御戦略が優れていることを単走実験で確認した。これらの予備的な結果は、複数のアクティベーション空間にまたがる共同訓練が、一般化を改善するための単純かつ効果的な経路を提供する可能性があることを示唆している。

関連論文リスト

Improving and Accelerating Offline RL in Large Discrete Action Spaces with Structured Policy Initialization [11.646124619395486]
離散的な作用空間における強化学習では、指数関数的に多くの共同作用を探索し、コヒーレントな組み合わせを形成する複数の部分作用を同時に選択する必要がある。既存のアプローチは、サブアクション間で独立性を仮定することでポリシー学習を単純化するか、またはアクション構造とコントロールを共同で学ぼうとする。本稿では,まず行動構造モデル(ASM)を事前訓練し,有効な行動の多様体を抽出し,その表現を凍結し,軽量なポリシーヘッドを制御するための2段階のフレームワークであるStructured Policy Initialization(SPIN)を紹介する。
論文参考訳（メタデータ） (2026-01-07T22:57:21Z)
Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training [105.74524789405514]
対人訓練(AT)は、現在、ニューラルネットワークに対する最も効果的な防御である。本稿では,汎用化目標を複数のサブタスクに分割し,それぞれを専用のベースラーナに割り当てる。トレーニングの後半では、これらのパラメータを補間して、知識のあるグローバルな学習者を形成する。このフレームワークをGeneralistと呼び、異なるアプリケーションシナリオに適した3つのバリエーションを紹介します。
論文参考訳（メタデータ） (2025-10-15T09:47:54Z)
IMEX-Reg: Implicit-Explicit Regularization in the Function Space for Continual Learning [17.236861687708096]
連続学習(CL)は、これまで獲得した知識の破滅的な忘れが原因で、ディープニューラルネットワークの長年にわたる課題の1つである。低バッファ状態下でのCLにおける経験リハーサルの一般化性能を改善するために,強い帰納バイアスを用いて人間がどのように学習するかに着想を得たIMEX-Regを提案する。
論文参考訳（メタデータ） (2024-04-28T12:25:09Z)
Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文参考訳（メタデータ） (2024-02-08T18:49:09Z)
Supplementing Gradient-Based Reinforcement Learning with Simple Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文参考訳（メタデータ） (2023-05-10T09:46:53Z)
Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文参考訳（メタデータ） (2022-06-05T08:49:16Z)
Sparsity Winning Twice: Better Robust Generalization from More Efficient Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文参考訳（メタデータ） (2022-02-20T15:52:08Z)
Deep Active Learning by Leveraging Training Dynamics [57.95155565319465]
本稿では,学習力学を最大化するためにサンプルを選択する理論駆動型深層能動学習法(Dynamical)を提案する。動的学習は、他のベースラインを一貫して上回るだけでなく、大規模なディープラーニングモデルでもうまくスケール可能であることを示す。
論文参考訳（メタデータ） (2021-10-16T16:51:05Z)
Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。 VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文参考訳（メタデータ） (2021-07-27T16:39:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。