Fugu-MT 論文翻訳(概要): Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for Compact and Efficient language model

論文の概要: Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for Compact and Efficient language model

arxiv url: http://arxiv.org/abs/2305.12458v1
Date: Sun, 21 May 2023 13:30:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 20:26:12.931960
Title: Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for Compact and Efficient language model
Title（参考訳）: infor-coef:コンパクトで効率的な言語モデルのための情報ボトルネックに基づく動的トークンダウンサンプリング
Authors: Wenxi Tan
Abstract要約: 過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The prevalence of Transformer-based pre-trained language models (PLMs) has led to their wide adoption for various natural language processing tasks. However, their excessive overhead leads to large latency and computational costs. The statically compression methods allocate fixed computation to different samples, resulting in redundant computation. The dynamic token pruning method selectively shortens the sequences but are unable to change the model size and hardly achieve the speedups as static pruning. In this paper, we propose a model accelaration approaches for large language models that incorporates dynamic token downsampling and static pruning, optimized by the information bottleneck loss. Our model, Infor-Coef, achieves an 18x FLOPs speedup with an accuracy degradation of less than 8\% compared to BERT. This work provides a promising approach to compress and accelerate transformer-based models for NLP tasks.
Abstract（参考訳）: Transformerベースの事前学習言語モデル(PLM)の普及により、様々な自然言語処理タスクに広く採用されている。しかし、過度のオーバーヘッドは大きなレイテンシと計算コストにつながる。静的圧縮法は、固定された計算を異なるサンプルに割り当て、冗長な計算をもたらす。動的トークンプルーニング法は、シーケンスを選択的に短縮するが、モデルサイズを変更できず、静的プルーニングとしてスピードアップを達成できない。本稿では,情報ボトルネック損失に最適化された動的トークンダウンサンプリングと静的プルーニングを組み込んだ大規模言語モデルのためのモデル加速手法を提案する。 Infor-Coef モデルでは,BERT と比較して精度が 8 % 未満の 18x FLOPs の高速化を実現している。この研究は、NLPタスクのトランスフォーマーベースのモデルを圧縮し、加速するための有望なアプローチを提供する。

関連論文リスト

Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文参考訳（メタデータ） (2025-05-29T19:42:35Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文参考訳（メタデータ） (2025-05-04T21:47:18Z)
Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文参考訳（メタデータ） (2025-03-03T11:21:01Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
Singular Value Scaling: Efficient Generative Model Compression via Pruned Weights Refinement [9.454314879815337]
生成モデルは、しばしば支配的な特異ベクトルを示し、微調整効率を阻害し、最適以下の性能をもたらす。 SVS(Singular Value Scaling, Singular Value Scaling, SVS)は, 両モデルタイプに適用可能な, プレナードウェイトを精製する多用途技術である。 SVSは、追加のトレーニングコストなしでモデルタイプ間の圧縮性能を改善する。
論文参考訳（メタデータ） (2024-12-23T08:40:08Z)
LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文参考訳（メタデータ） (2024-12-17T01:12:35Z)
Byte Latent Transformer: Patches Scale Better Than Tokens [101.10994909832063]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文参考訳（メタデータ） (2024-12-13T05:33:32Z)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文参考訳（メタデータ） (2024-11-21T12:02:39Z)
Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文参考訳（メタデータ） (2023-05-25T07:39:41Z)
I3D: Transformer architectures with input-dependent dynamic depth for speech recognition [41.35563331283372]
本稿では,入力依存動的深さ(I3D)を用いたトランスフォーマーエンコーダを提案する。また、ゲート確率と入力依存性について興味深い分析を行い、より深いエンコーダの理解を深める。
論文参考訳（メタデータ） (2023-03-14T04:47:00Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
Fast DistilBERT on CPUs [13.29188219884869]
トランスフォーマーベースの言語モデルは、自然言語処理タスクを解決するための標準的なアプローチとなっている。業界の採用は通常、特定のレイテンシ制約を満たすために最大スループットを必要とします。我々は,ハードウェア対応プルーニング,知識蒸留,量子化,およびスパース演算子と量子化演算子に最適化されたカーネルを備えた独自のTransformer推論ランタイムエンジンを利用して,CPU上で高速トランスフォーマーモデルを作成し,実行するためのパイプラインを提案する。
論文参考訳（メタデータ） (2022-10-27T07:22:50Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文参考訳（メタデータ） (2021-07-18T09:05:16Z)
Direction is what you need: Improving Word Embedding Compression in Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-06-15T14:28:00Z)
Efficient Transformer-based Large Scale Language Representations using Hardware-friendly Block Structured Pruning [12.761055946548437]
ハードウェアフレンドリーなブロック構造プルーニングを用いた,効率的なトランスフォーマーに基づく大規模言語表現を提案する。重み付けと計算の大幅な削減に加えて,提案手法は高い圧縮率を達成する。リソース制約のあるエッジデバイスに最終的な圧縮モデルを展開するのに適している。
論文参考訳（メタデータ） (2020-09-17T04:45:47Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。