Fugu-MT 論文翻訳(概要): Post-Training Statistical Calibration for Higher Activation Sparsity

論文の概要: Post-Training Statistical Calibration for Higher Activation Sparsity

arxiv url: http://arxiv.org/abs/2412.07174v1
Date: Tue, 10 Dec 2024 04:15:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.220093
Title: Post-Training Statistical Calibration for Higher Activation Sparsity
Title（参考訳）: 高度活動空間に対する訓練後の統計的校正
Authors: Vui Seng Chua, Yujie Pan, Nilesh Jain,
Abstract要約: 統計的キャリブレーション・アクティベーション・プルーニング(英: Statistical Calibrated Activation Pruning, SCAP)は、トランスフォーマーのためのトレーニング後のアクティベーション・プルーニングフレームワークである。 SCAPは、トレーニング後の間隔を最大化するために、アクティベーション分布を校正するシンプルなモードセンター技術を備えている。 SCAPは、最近のTransformer Decoders、MoE、Mamba2、Labs、および事前量子化モデルなど、幅広いモデルで実証的に検証されている。
参考スコア（独自算出の注目度）: 1.024113475677323
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present Statistical Calibrated Activation Pruning (SCAP), a post-training activation pruning framework that (1) generalizes sparsification by input activations of Fully-Connected layers for generic and flexible application across Transformers, and (2) features a simple Mode-Centering technique to pre-calibrate activation distributions for maximizing post-training sparsity. Our results demonstrate robust Pareto efficiency compared to prior methods, translating to a 1.5x additional LLM decoding speedup against CATS at iso model quality. SCAP effectiveness is empirically verified across a wide range of models, including recent Transformer Decoders, MoE, Mamba2, Encoding Transformer, and pre-quantized models, highlighting its practicality and scalability. The code is available at: https://github.com/IntelLabs/SCAP.
Abstract（参考訳）: 本稿では,(1)トランスフォーマー間の汎用およびフレキシブルなアプリケーションのためのFully-Connected Layerの入力アクティベーションによるスペーシフィケーションを一般化する,学習後アクティベーションプルーニングフレームワークである統計的キャリブレーション・アクティベーション・プルーニング(SCAP)について述べる。以上の結果から,従来の手法に比べてロバストなPareto効率を示すとともに,CATSに対する1.5倍のLCM復号高速化を実現した。 SCAPの有効性は、最近のTransformer Decoders、MoE、Mamba2、Encoding Transformer、および事前量子化モデルなど、幅広いモデルで実証的に検証されており、実用性とスケーラビリティを強調している。コードは、https://github.com/IntelLabs/SCAPで入手できる。

関連論文リスト

Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文参考訳（メタデータ） (2025-06-11T06:30:28Z)
Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation [30.912818564963512]
DETRISは、低ランクな視覚的特徴伝達を強化するために設計されたパラメータ効率のチューニングフレームワークである。我々の単純で効率的なアプローチは、最先端のメソッドを大きく上回り、0.9%から1.8%のバックボーンパラメーターが更新される。
論文参考訳（メタデータ） (2025-01-15T05:00:03Z)
Byte Latent Transformer: Patches Scale Better Than Tokens [101.10994909832063]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文参考訳（メタデータ） (2024-12-13T05:33:32Z)
Transformer Layer Injection: A Novel Approach for Efficient Upscaling of Large Language Models [0.0]
Transformer Layer Injection (TLI)は、大規模言語モデル(LLM)を効率的にスケールアップする新しい手法である。提案手法は, 各K層に新しい層を注入することにより, 従来の深層アップスケーリング(DUS)技術を改善する。
論文参考訳（メタデータ） (2024-10-15T14:41:44Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文参考訳（メタデータ） (2023-07-12T11:32:02Z)
Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。 ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文参考訳（メタデータ） (2023-07-05T13:17:14Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。 CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文参考訳（メタデータ） (2023-03-13T17:59:02Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文参考訳（メタデータ） (2022-10-05T17:05:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。