論文の概要: DynamicGate MLP Conditional Computation via Learned Structural Dropout and Input Dependent Gating for Functional Plasticity
- arxiv url: http://arxiv.org/abs/2603.16367v1
- Date: Tue, 17 Mar 2026 10:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.230687
- Title: DynamicGate MLP Conditional Computation via Learned Structural Dropout and Input Dependent Gating for Functional Plasticity
- Title(参考訳): 機能的塑性に対する動的Gate MLP条件計算と入力依存ゲーティング
- Authors: Yong Il Choi,
- Abstract要約: ドロップアウト(Dropout)は、トレーニング中に隠れたユニットを非活性化してオーバーフィッティングを緩和する代表的な正規化技術である。
標準推論は、高密度な計算で全ネットワークを実行するため、その目標とメカニズムは条件付き計算とは異なる。
本稿では,DynamicGate-MLPを正規化ビューと条件計算ビューの両方を同時に満足する単一のフレームワークに編成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dropout is a representative regularization technique that stochastically deactivates hidden units during training to mitigate overfitting. In contrast, standard inference executes the full network with dense computation, so its goal and mechanism differ from conditional computation, where the executed operations depend on the input. This paper organizes DynamicGate-MLP into a single framework that simultaneously satisfies both the regularization view and the conditional-computation view. Instead of a random mask, the proposed model learns gates that decide whether to use each unit (or block), suppressing unnecessary computation while implementing sample-dependent execution that concentrates computation on the parts needed for each input. To this end, we define continuous gate probabilities and, at inference time, generate a discrete execution mask from them to select an execution path. Training controls the compute budget via a penalty on expected gate usage and uses a Straight-Through Estimator (STE) to optimize the discrete mask. We evaluate DynamicGate-MLP on MNIST, CIFAR-10, Tiny-ImageNet, Speech Commands, and PBMC3k, and compare it with various MLP baselines and MoE-style variants. Compute efficiency is compared under a consistent criterion using gate activation ratios and a layerweighted relative MAC metric, rather than wall-clock latency that depends on hardware and backend kernels.
- Abstract(参考訳): ドロップアウト(Dropout)は、トレーニング中に隠れたユニットを確率的に非活性化してオーバーフィッティングを緩和する代表的な正規化技術である。
対照的に、標準推論は、高密度な計算で全ネットワークを実行するため、その目的とメカニズムは、実行された操作が入力に依存する条件計算とは異なる。
本稿では,DynamicGate-MLPを正規化ビューと条件計算ビューの両方を同時に満足する単一のフレームワークに編成する。
ランダムマスクの代わりに、提案モデルは、各ユニット(またはブロック)を使用するかどうかを決定するゲートを学習し、各入力に必要な部分に集中するサンプル依存実行を実装しながら、不要な計算を抑える。
この目的のために、連続ゲート確率を定義し、推論時に個別の実行マスクを生成して実行経路を選択する。
トレーニングは、期待されるゲートの使用に対するペナルティを通じて計算予算を制御し、離散マスクを最適化するためにSTE(Straight-Through Estimator)を使用する。
MNIST, CIFAR-10, Tiny-ImageNet, Speech Commands, PBMC3k 上で DynamicGate-MLP を評価し,様々な MLP ベースラインや MoE スタイルの変種と比較した。
計算効率は、ハードウェアやバックエンドのカーネルに依存するウォールクロックレイテンシよりも、ゲートアクティベーション比と層重の相対MACメトリックを使用して一貫した基準で比較される。
関連論文リスト
- Deterministic Differentiable Structured Pruning for Large Language Models [37.33389749907146]
構造化プルーニングは、重要度の低いアーキテクチャ部品を取り除き、LLM推論コストを削減する。
マスクのみの最適化手法であるDDP(Deterministic Differentiable Pruning)を提案する。
従来のアプローチと比較して、DDPはより表現力が高く、テストミスマッチが減少し、より早く収束する。
論文 参考訳(メタデータ) (2026-03-09T07:59:17Z) - AdaPonderLM: Gated Pondering Language Models with Token-Wise Adaptive Depth [23.442686851761298]
AdaPonderLMは、事前トレーニング中にトークン単位の早期終了を学習する、自己教師型リカレント言語モデルである。
AdaPonderLMは、比較可能な言語モデリングの難易度と競合する下流の精度を維持しながら、推論計算を約10%削減する。
論文 参考訳(メタデータ) (2026-03-02T14:28:16Z) - What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。
本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。
データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-01T07:30:22Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Mixture-of-Depths: Dynamically allocating compute in transformer-based language models [8.774705201394916]
トランスフォーマーベースの言語モデルは、FLOPを入力シーケンスに均一に展開した。
変換器はシーケンス内の特定の位置にFLOPを動的に割り当てることが可能であることを示す。
論文 参考訳(メタデータ) (2024-04-02T19:28:11Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。