論文の概要: M2T: Masking Transformers Twice for Faster Decoding
- arxiv url: http://arxiv.org/abs/2304.07313v1
- Date: Fri, 14 Apr 2023 14:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 19:40:15.963635
- Title: M2T: Masking Transformers Twice for Faster Decoding
- Title(参考訳): m2t: 高速デコードのために2回マスクトランスフォーマー
- Authors: Fabian Mentzer, Eirikur Agustsson, Michael Tschannen
- Abstract要約: マスク付きトークン予測のために訓練された双方向トランスフォーマーが、ニューラル画像圧縮にどのように適用できるかを示す。
我々は,事前定義された決定論的スケジュールが画像圧縮にも有効であることを示す。
- 参考スコア(独自算出の注目度): 39.6722311745861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show how bidirectional transformers trained for masked token prediction
can be applied to neural image compression to achieve state-of-the-art results.
Such models were previously used for image generation by progressivly sampling
groups of masked tokens according to uncertainty-adaptive schedules. Unlike
these works, we demonstrate that predefined, deterministic schedules perform as
well or better for image compression. This insight allows us to use masked
attention during training in addition to masked inputs, and activation caching
during inference, to significantly speed up our models (~4 higher inference
speed) at a small increase in bitrate.
- Abstract(参考訳): マスキングトークン予測のための双方向トランスフォーマーをニューラルネットワークの圧縮に適用し,最新の結果を得る方法を示す。
このようなモデルは以前、不確実性適応スケジュールに従ってマスク付きトークンのグループを段階的にサンプリングすることで画像生成に利用されていた。
これらの作業と異なり、事前に定義された決定論的スケジュールは、画像圧縮においても同等以上のパフォーマンスを示す。
この洞察により、トレーニング中にマスクされた注意と、マスクされた入力、推論中のアクティベーションキャッシングを使用でき、ビットレートのわずかな増加でモデル(約4倍の推論速度)を大幅に高速化できる。
関連論文リスト
- Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - MaskViT: Masked Visual Pre-Training for Video Prediction [29.25521342538311]
マスク付き視覚モデルを用いて、トランスフォーマーを事前学習することで、優れた映像予測モデルを作成する。
MaskViTは、ビデオ予測における以前の作業よりも優れ、パラメータ効率が高く、高解像度のビデオを生成することができる。
我々の研究は、マスク付き視覚モデリングの一般的な枠組みを活用することで、強力な予測モデルでエンボディードエージェントを育むことができることを示唆している。
論文 参考訳(メタデータ) (2022-06-23T17:59:33Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。