論文の概要: Masked Vector Quantization
- arxiv url: http://arxiv.org/abs/2301.06626v1
- Date: Mon, 16 Jan 2023 22:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:13:10.558785
- Title: Masked Vector Quantization
- Title(参考訳): マスクベクトル量子化
- Authors: David D. Nguyen, David Leibowitz, Surya Nepal, Salil S. Kanhere
- Abstract要約: 離散潜在表現を持つ生成モデルは、最近、複雑なデータ分布を学習する印象的な能力を示した。
マスク構成の学習により各コードベクトルの表現能力を高めるMasked Vector Quantization (MVQ) フレームワークを提案する。
MVQは、既存のベクトル量子化アーキテクチャのFIDをインスタンス当たり2トークンで最大68%、5トークンで最大57%削減する。
- 参考スコア(独自算出の注目度): 24.506580311413593
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative models with discrete latent representations have recently
demonstrated an impressive ability to learn complex high-dimensional data
distributions. However, their performance relies on a long sequence of tokens
per instance and a large number of codebook entries, resulting in long sampling
times and considerable computation to fit the categorical posterior. To address
these issues, we propose the Masked Vector Quantization (MVQ) framework which
increases the representational capacity of each code vector by learning mask
configurations via a stochastic winner-takes-all training regime called
Multiple Hypothese Dropout (MH-Dropout). On ImageNet 64$\times$64, MVQ reduces
FID in existing vector quantization architectures by up to $68\%$ at 2 tokens
per instance and $57\%$ at 5 tokens. These improvements widen as codebook
entries is reduced and allows for $7\textit{--}45\times$ speed-up in token
sampling during inference. As an additional benefit, we find that smaller
latent spaces lead to MVQ identifying transferable visual representations where
multiple can be smoothly combined.
- Abstract(参考訳): 離散的潜在表現を持つ生成モデルは最近、複雑な高次元データ分布を学習する素晴らしい能力を示している。
しかしながら、それらのパフォーマンスはインスタンス当たりのトークンの長いシーケンスと多数のコードブックエントリに依存しており、結果として長いサンプリング時間と相当な計算がカテゴリの後方に適合する。
これらの問題に対処するために,MH-Dropout(MH-Dropout)と呼ばれる確率的勝者獲得学習システムを用いて,マスク構成を学習することにより,各コードベクトルの表現能力を高めるMasked Vector Quantization(MVQ)フレームワークを提案する。
ImageNet 64$\times$64では、MVQは既存のベクトル量子化アーキテクチャのFIDをインスタンス当たり2トークンで最大6,8\%、5トークンで最大5,7\%削減する。
これらの改善は、コードブックのエントリが減少し、推論中にトークンサンプリングのスピードアップを7ドル99セントで行えるようになった。
さらなる利点として、より小さな潜在空間は、複数をスムーズに結合できる転送可能な視覚的表現をmvqに識別させる。
関連論文リスト
- Finite Scalar Quantization: VQ-VAE Made Simple [26.351016719675766]
我々は、VQ-VAEの潜在表現におけるベクトル量子化(VQ)を、有限スカラー量子化(FSQ)と呼ばれる単純なスキームで置き換えることを提案する。
それぞれの次元と値の数を適切に選択することにより、VQと同じコードブックサイズが得られる。
画像生成にはFSQとMaskGIT,深度推定にはUViMを用いる。
論文 参考訳(メタデータ) (2023-09-27T09:13:40Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with
Masked Autoencoders [44.87786478095987]
Masked Autoencodersは、画像、テキスト、オーディオ、ビデオなどの一般的な表現を、可視データのトークンからマスクされた入力データによって学習する。
本稿では,エンド・ツー・エンドのトレーニングが可能なMAEに対する適応型マスキング戦略を提案する。
AdaMAEは補助サンプリングネットワークを用いて意味的コンテキストに基づいて可視トークンをサンプリングする。
論文 参考訳(メタデータ) (2022-11-16T18:59:48Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z) - Extreme Masking for Learning Instance and Distributed Visual
Representations [50.152264456036114]
本稿では,個々のトークン上の分散表現を同時に学習するためのスケーラブルなアプローチと,総合的なインスタンス表現を提案する。
分散トークンを表すために自己アテンションブロックを使用し、続いてクロスアテンションブロックを使用して全体インスタンスを集約します。
我々のモデルであるExtreMAは、未成熟なサブセットからのインスタンス表現をトレーニングして、無傷な入力からそれを予測する、プレーンなBYOLアプローチに従っています。
論文 参考訳(メタデータ) (2022-06-09T17:59:43Z) - SOLQ: Segmenting Objects by Learning Queries [33.02115826341877]
SOLQでは、各クエリは1つのオブジェクトを表し、クラス、ロケーション、マスクの複数の表現を持つ。
SOLQは最先端のパフォーマンスを達成でき、既存のアプローチの多くを上回ります。
統合クエリ表現の合同学習は、元のDETRの検出性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T09:03:31Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。