Fugu-MT 論文翻訳(概要): Input Compression with Positional Consistency for Efficient Training and Inference of Transformer Neural Networks

論文の概要: Input Compression with Positional Consistency for Efficient Training and Inference of Transformer Neural Networks

arxiv url: http://arxiv.org/abs/2312.12385v1
Date: Wed, 22 Nov 2023 16:03:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 13:28:49.689785
Title: Input Compression with Positional Consistency for Efficient Training and Inference of Transformer Neural Networks
Title（参考訳）: 変圧器ニューラルネットワークの効率的なトレーニングと推論のための位置整合性を備えた入力圧縮
Authors: Amrit Nagarajan and Anand Raghunathan
Abstract要約: 本稿では,新しいデータ拡張手法である位置整合性を用いた入力圧縮(I CPC)を提案する。 I CPCは、各エポックにおける各トレーニングサンプルに様々なレベルの圧縮を適用します。 I CPCは精度を最大1%向上させ、トレーニングと推論を最大2.9Xと2.6Xに加速させる。
参考スコア（独自算出の注目度）: 6.081669597975186
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have rapidly increased in popularity in recent years, achieving state-of-the-art performance in processing text, images, audio and video. However, Transformers present large computational requirements for both training and inference, and are prone to overfitting during training. To address these challenges, we present Input Compression with Positional Consistency (ICPC), a new data augmentation method that, unlike prior augmentation techniques, simultaneously improves both generalization and training efficiency. ICPC applies varying levels of compression to each training sample in each epoch. This leads to smaller input sequences being processed by the Transformer, and hence faster training, while also alleviating overfitting by presenting each input with different compression levels. We introduce a consistency-aware position selection method in ICPC that enables accurate processing of compressed inputs without any changes to the underlying Transformer architecture. We detail compression-based augmentation methods for four different modalities -- insignificant word pruning for text, resolution modulation for images, spatio-temporal resolution modulation for videos, and spectogram size modulation for audio. ICPC also enables efficient variable-effort inference, where samples are first inferred at high compression levels, and progressively re-evaluated with lower compression for more challenging inputs. On 9 diverse tasks spanning 4 different modalities, ICPC improves accuracy by up to 1%, while also accelerating training and inference by up to 2.9X and 2.6X, respectively. Code is available at https://github.com/amrnag/ICPC.
Abstract（参考訳）: 近年、トランスフォーマーは急速に普及し、テキスト、画像、オーディオ、ビデオの処理において最先端のパフォーマンスを達成した。しかし、トランスフォーマーはトレーニングと推論の両方において大きな計算要件を示しており、トレーニング中にオーバーフィットしがちである。これらの課題に対処するため、従来の拡張手法とは異なり、一般化とトレーニング効率の両方を同時に改善する新しいデータ拡張手法であるICPC(Input Compression with Positional Consistency)を提案する。 icpcは、各エポックのトレーニングサンプルに、さまざまなレベルの圧縮を適用する。これにより、Transformerによって処理される入力シーケンスが小さくなり、トレーニングが高速化されると同時に、各入力を異なる圧縮レベルにすることでオーバーフィッティングが軽減される。 ICPC に整合性を考慮した位置選択手法を導入し,基礎となる Transformer アーキテクチャを変更することなく,圧縮入力の正確な処理を可能にする。本稿では,4つのモーダルの圧縮に基づく拡張手法について詳述する。テキストの単語プルーニング,画像の解像度変調,ビデオの時空間分解能変調,音声のスペクトルサイズ変調である。 icpcはまた、サンプルがまず高い圧縮レベルで推論され、より困難な入力のためにより低い圧縮で徐々に再評価される効率的な可変エフォート推論を可能にする。 4つの異なるモードにまたがる9つのタスクにおいて、ICPCは最大1%の精度向上を実現し、トレーニングと推論を最大2.9Xと2.6Xに加速する。コードはhttps://github.com/amrnag/icpc。

関連論文リスト

Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文参考訳（メタデータ） (2024-12-23T10:41:18Z)
Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文参考訳（メタデータ） (2024-11-24T13:00:44Z)
Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文参考訳（メタデータ） (2024-10-08T11:07:55Z)
Bi-Level Spatial and Channel-aware Transformer for Learned Image Compression [0.0]
本稿では,特徴マップ内の周波数成分を考慮したトランスフォーマーに基づく画像圧縮手法を提案する。本手法は,空間ベース分岐が高周波数と低周波数を独立に扱うHSCATB(Hybrid Space-Channel Attention Transformer Block)を統合した。また、トランスフォーマーブロック内にMLGFFN(Mixed Local-Global Feed Forward Network)を導入し、多様な情報とリッチな情報の抽出を強化する。
論文参考訳（メタデータ） (2024-08-07T15:35:25Z)
A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たすモデル圧縮法は、Transformerのメモリと計算コストを削減する。この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文参考訳（メタデータ） (2024-02-05T12:16:28Z)
Progressive Learning with Visual Prompt Tuning for Variable-Rate Image Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文参考訳（メタデータ） (2023-11-23T08:29:32Z)
GraVAC: Adaptive Compression for Communication-Efficient Distributed DL Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。 GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文参考訳（メタデータ） (2023-05-20T14:25:17Z)
Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。 HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文参考訳（メタデータ） (2022-05-20T11:37:44Z)
High-Efficiency Lossy Image Coding Through Adaptive Neighborhood Information Aggregation [37.02522504535854]
圧縮性能とスループットの両方に優れた効率のロスシー画像符号化(lic)は難しい。提案手法は,コダック,CLIC,Tecnickの各データセットの平均値に対して,$approx$15%のBDレート改善を施したVVCイントラよりも優れた圧縮性能を報告した。
論文参考訳（メタデータ） (2022-04-25T05:40:57Z)
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。 SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文参考訳（メタデータ） (2020-12-31T18:55:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。