論文の概要: Input Compression with Positional Consistency for Efficient Training and
Inference of Transformer Neural Networks
- arxiv url: http://arxiv.org/abs/2312.12385v1
- Date: Wed, 22 Nov 2023 16:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:28:49.689785
- Title: Input Compression with Positional Consistency for Efficient Training and
Inference of Transformer Neural Networks
- Title(参考訳): 変圧器ニューラルネットワークの効率的なトレーニングと推論のための位置整合性を備えた入力圧縮
- Authors: Amrit Nagarajan and Anand Raghunathan
- Abstract要約: 本稿では,新しいデータ拡張手法である位置整合性を用いた入力圧縮(I CPC)を提案する。
I CPCは、各エポックにおける各トレーニングサンプルに様々なレベルの圧縮を適用します。
I CPCは精度を最大1%向上させ、トレーニングと推論を最大2.9Xと2.6Xに加速させる。
- 参考スコア(独自算出の注目度): 6.081669597975186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have rapidly increased in popularity in recent years, achieving
state-of-the-art performance in processing text, images, audio and video.
However, Transformers present large computational requirements for both
training and inference, and are prone to overfitting during training. To
address these challenges, we present Input Compression with Positional
Consistency (ICPC), a new data augmentation method that, unlike prior
augmentation techniques, simultaneously improves both generalization and
training efficiency. ICPC applies varying levels of compression to each
training sample in each epoch. This leads to smaller input sequences being
processed by the Transformer, and hence faster training, while also alleviating
overfitting by presenting each input with different compression levels. We
introduce a consistency-aware position selection method in ICPC that enables
accurate processing of compressed inputs without any changes to the underlying
Transformer architecture. We detail compression-based augmentation methods for
four different modalities -- insignificant word pruning for text, resolution
modulation for images, spatio-temporal resolution modulation for videos, and
spectogram size modulation for audio. ICPC also enables efficient
variable-effort inference, where samples are first inferred at high compression
levels, and progressively re-evaluated with lower compression for more
challenging inputs. On 9 diverse tasks spanning 4 different modalities, ICPC
improves accuracy by up to 1%, while also accelerating training and inference
by up to 2.9X and 2.6X, respectively. Code is available at
https://github.com/amrnag/ICPC.
- Abstract(参考訳): 近年、トランスフォーマーは急速に普及し、テキスト、画像、オーディオ、ビデオの処理において最先端のパフォーマンスを達成した。
しかし、トランスフォーマーはトレーニングと推論の両方において大きな計算要件を示しており、トレーニング中にオーバーフィットしがちである。
これらの課題に対処するため、従来の拡張手法とは異なり、一般化とトレーニング効率の両方を同時に改善する新しいデータ拡張手法であるICPC(Input Compression with Positional Consistency)を提案する。
icpcは、各エポックのトレーニングサンプルに、さまざまなレベルの圧縮を適用する。
これにより、Transformerによって処理される入力シーケンスが小さくなり、トレーニングが高速化されると同時に、各入力を異なる圧縮レベルにすることでオーバーフィッティングが軽減される。
ICPC に整合性を考慮した位置選択手法を導入し,基礎となる Transformer アーキテクチャを変更することなく,圧縮入力の正確な処理を可能にする。
本稿では,4つのモーダルの圧縮に基づく拡張手法について詳述する。テキストの単語プルーニング,画像の解像度変調,ビデオの時空間分解能変調,音声のスペクトルサイズ変調である。
icpcはまた、サンプルがまず高い圧縮レベルで推論され、より困難な入力のためにより低い圧縮で徐々に再評価される効率的な可変エフォート推論を可能にする。
4つの異なるモードにまたがる9つのタスクにおいて、ICPCは最大1%の精度向上を実現し、トレーニングと推論を最大2.9Xと2.6Xに加速する。
コードはhttps://github.com/amrnag/icpc。
関連論文リスト
- Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Bi-Level Spatial and Channel-aware Transformer for Learned Image Compression [0.0]
本稿では,特徴マップ内の周波数成分を考慮したトランスフォーマーに基づく画像圧縮手法を提案する。
本手法は,空間ベース分岐が高周波数と低周波数を独立に扱うHSCATB(Hybrid Space-Channel Attention Transformer Block)を統合した。
また、トランスフォーマーブロック内にMLGFFN(Mixed Local-Global Feed Forward Network)を導入し、多様な情報とリッチな情報の抽出を強化する。
論文 参考訳(メタデータ) (2024-08-07T15:35:25Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - GraVAC: Adaptive Compression for Communication-Efficient Distributed DL
Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。
GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。
静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文 参考訳(メタデータ) (2023-05-20T14:25:17Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z) - High-Efficiency Lossy Image Coding Through Adaptive Neighborhood
Information Aggregation [37.02522504535854]
圧縮性能とスループットの両方に優れた効率のロスシー画像符号化(lic)は難しい。
提案手法は,コダック,CLIC,Tecnickの各データセットの平均値に対して,$approx$15%のBDレート改善を施したVVCイントラよりも優れた圧縮性能を報告した。
論文 参考訳(メタデータ) (2022-04-25T05:40:57Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。