Fugu-MT 論文翻訳(概要): Exploiting Transformer Activation Sparsity with Dynamic Inference

論文の概要: Exploiting Transformer Activation Sparsity with Dynamic Inference

arxiv url: http://arxiv.org/abs/2310.04361v1
Date: Fri, 6 Oct 2023 16:34:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-09 14:58:32.306053
Title: Exploiting Transformer Activation Sparsity with Dynamic Inference
Title（参考訳）: 動的推論による変圧器活性化空間の爆発
Authors: Miko{\l}aj Pi\'orczy\'nski, Filip Szatkowski, Klaudia Ba{\l}azy, Bartosz W\'ojcik
Abstract要約: 本稿では,トランスフォーマーモデルの推論コストを大幅に削減する動的スカラートランスフォーマー推論(DSTI)を提案する。 BERTベース分類モデルでは,推定コストを約60%削減する。
参考スコア（独自算出の注目度）: 1.424005404275135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer models, despite their impressive performance, often face practical limitations due to their high computational requirements. At the same time, previous studies have revealed significant activation sparsity in these models, indicating the presence of redundant computations. In this paper, we propose Dynamic Sparsified Transformer Inference (DSTI), a method that radically reduces the inference cost of Transformer models by enforcing activation sparsity and subsequently transforming a dense model into its sparse Mixture of Experts (MoE) version. We demonstrate that it is possible to train small gating networks that successfully predict the relative contribution of each expert during inference. Furthermore, we introduce a mechanism that dynamically determines the number of executed experts individually for each token. DSTI can be applied to any Transformer-based architecture and has negligible impact on the accuracy. For the BERT-base classification model, we reduce inference cost by almost 60%.
Abstract（参考訳）: トランスフォーマーモデルは、優れた性能にもかかわらず、しばしば高い計算要求のために実用的な制限に直面している。同時に、以前の研究ではこれらのモデルにおいて大きな活性化間隔が示され、冗長な計算の存在が示されている。本稿では,動的スパルシファイドトランスフォーマティブ推論(dsti)を提案する。この手法は,アクティベーションスパルシティを強制することによりトランスフォーマの推論コストを劇的に削減し,その後に密集したモデルをsparse mixed of experts (moe) バージョンに変換する。提案手法では,各専門家の相対的寄与を予測できる小型ゲーティングネットワークの学習が可能であることを実証する。さらに,トークン毎に個別に実行される専門家の数を動的に決定する機構を導入する。 DSTIはトランスフォーマーベースのアーキテクチャにも適用でき、精度には何の影響も与えない。 BERTベース分類モデルでは,推定コストを約60%削減する。

関連論文リスト

Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文参考訳（メタデータ） (2025-08-04T10:08:10Z)
Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。 LRM効率を向上させるための2つの軽量手法を提案する。まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文参考訳（メタデータ） (2025-06-18T17:18:12Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
S$^2$-MAD: Breaking the Token Barrier to Enhance Multi-Agent Debate Efficiency [5.195584743414427]
マルチエージェント・ディベート(MAD)は、大規模言語モデル(LLM)の推論能力を高めるための実行可能なアプローチとして登場した。我々は,MAD内のトークンコストを削減するために,新しいスペーシフィケーション戦略を導入する。このアプローチは、エージェント間の情報交換や非生産的議論の非効率を最小化し、議論プロセスの全体的な効率を向上する。
論文参考訳（メタデータ） (2025-02-07T09:49:56Z)
Mixture of Hidden-Dimensions Transformer [50.40325486463241]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。 50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文参考訳（メタデータ） (2024-12-07T13:15:22Z)
CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification [7.8430836312711465]
エッジデバイス上の大規模言語モデル(LLM)は、計算オーバーヘッドとメモリ要求がかなり大きいため、大きな課題を呈している。活性化スパーシフィケーションは、推論中に活性化されたニューロンの数を減らすことでこれらの課題を軽減することができる。本稿では,CHESS(CHannel-wise thrEsholding and Selective Sparsification)による一般的なアクティベーションスカラー化手法を紹介する。
論文参考訳（メタデータ） (2024-09-02T16:41:44Z)
AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。 AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。 AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文参考訳（メタデータ） (2024-08-19T03:27:15Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition [22.615830919860777]
本稿では動的アダプタ(Dyn-Adapter)という,効率的な視覚認識パラダイムを提案する。適応的なトレーニング戦略とともに,複数レベルの特徴抽出のための早期のバランスの取れた動的アーキテクチャを考案する。予測中のFLOPを50%削減し,高い認識精度を維持した。
論文参考訳（メタデータ） (2024-07-19T13:33:38Z)
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-04-18T06:35:37Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文参考訳（メタデータ） (2023-05-25T15:46:20Z)
Towards More Effective and Economic Sparsely-Activated Model [31.979312090196423]
同じデバイス上で複数の専門家を活性化する効率的な階層的ルーティング機構を提案する。我々の手法は、非常に大きなスパースモデルのトレーニングに光を当て、実験により、我々のモデルが大幅な性能向上を達成できることを証明した。
論文参考訳（メタデータ） (2021-10-14T14:58:53Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文参考訳（メタデータ） (2020-07-13T16:56:27Z)
Momentum Improves Normalized SGD [51.27183254738711]
モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
論文参考訳（メタデータ） (2020-02-09T07:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。