論文の概要: M2T: Masking Transformers Twice for Faster Decoding
- arxiv url: http://arxiv.org/abs/2304.07313v1
- Date: Fri, 14 Apr 2023 14:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 19:40:15.963635
- Title: M2T: Masking Transformers Twice for Faster Decoding
- Title(参考訳): m2t: 高速デコードのために2回マスクトランスフォーマー
- Authors: Fabian Mentzer, Eirikur Agustsson, Michael Tschannen
- Abstract要約: マスク付きトークン予測のために訓練された双方向トランスフォーマーが、ニューラル画像圧縮にどのように適用できるかを示す。
我々は,事前定義された決定論的スケジュールが画像圧縮にも有効であることを示す。
- 参考スコア(独自算出の注目度): 39.6722311745861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show how bidirectional transformers trained for masked token prediction
can be applied to neural image compression to achieve state-of-the-art results.
Such models were previously used for image generation by progressivly sampling
groups of masked tokens according to uncertainty-adaptive schedules. Unlike
these works, we demonstrate that predefined, deterministic schedules perform as
well or better for image compression. This insight allows us to use masked
attention during training in addition to masked inputs, and activation caching
during inference, to significantly speed up our models (~4 higher inference
speed) at a small increase in bitrate.
- Abstract(参考訳): マスキングトークン予測のための双方向トランスフォーマーをニューラルネットワークの圧縮に適用し,最新の結果を得る方法を示す。
このようなモデルは以前、不確実性適応スケジュールに従ってマスク付きトークンのグループを段階的にサンプリングすることで画像生成に利用されていた。
これらの作業と異なり、事前に定義された決定論的スケジュールは、画像圧縮においても同等以上のパフォーマンスを示す。
この洞察により、トレーニング中にマスクされた注意と、マスクされた入力、推論中のアクティベーションキャッシングを使用でき、ビットレートのわずかな増加でモデル(約4倍の推論速度)を大幅に高速化できる。
関連論文リスト
- Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。
我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文 参考訳(メタデータ) (2024-09-16T15:10:07Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。