Fugu-MT 論文翻訳(概要): Masked Vector Quantization

論文の概要: Masked Vector Quantization

arxiv url: http://arxiv.org/abs/2301.06626v1
Date: Mon, 16 Jan 2023 22:30:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-18 15:13:10.558785
Title: Masked Vector Quantization
Title（参考訳）: マスクベクトル量子化
Authors: David D. Nguyen, David Leibowitz, Surya Nepal, Salil S. Kanhere
Abstract要約: 離散潜在表現を持つ生成モデルは、最近、複雑なデータ分布を学習する印象的な能力を示した。マスク構成の学習により各コードベクトルの表現能力を高めるMasked Vector Quantization (MVQ) フレームワークを提案する。 MVQは、既存のベクトル量子化アーキテクチャのFIDをインスタンス当たり2トークンで最大68%、5トークンで最大57%削減する。
参考スコア（独自算出の注目度）: 24.506580311413593
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Generative models with discrete latent representations have recently demonstrated an impressive ability to learn complex high-dimensional data distributions. However, their performance relies on a long sequence of tokens per instance and a large number of codebook entries, resulting in long sampling times and considerable computation to fit the categorical posterior. To address these issues, we propose the Masked Vector Quantization (MVQ) framework which increases the representational capacity of each code vector by learning mask configurations via a stochastic winner-takes-all training regime called Multiple Hypothese Dropout (MH-Dropout). On ImageNet 64$\times$64, MVQ reduces FID in existing vector quantization architectures by up to $68\%$ at 2 tokens per instance and $57\%$ at 5 tokens. These improvements widen as codebook entries is reduced and allows for $7\textit{--}45\times$ speed-up in token sampling during inference. As an additional benefit, we find that smaller latent spaces lead to MVQ identifying transferable visual representations where multiple can be smoothly combined.
Abstract（参考訳）: 離散的潜在表現を持つ生成モデルは最近、複雑な高次元データ分布を学習する素晴らしい能力を示している。しかしながら、それらのパフォーマンスはインスタンス当たりのトークンの長いシーケンスと多数のコードブックエントリに依存しており、結果として長いサンプリング時間と相当な計算がカテゴリの後方に適合する。これらの問題に対処するために,MH-Dropout(MH-Dropout)と呼ばれる確率的勝者獲得学習システムを用いて,マスク構成を学習することにより,各コードベクトルの表現能力を高めるMasked Vector Quantization(MVQ)フレームワークを提案する。 ImageNet 64$\times$64では、MVQは既存のベクトル量子化アーキテクチャのFIDをインスタンス当たり2トークンで最大6,8\%、5トークンで最大5,7\%削減する。これらの改善は、コードブックのエントリが減少し、推論中にトークンサンプリングのスピードアップを7ドル99セントで行えるようになった。さらなる利点として、より小さな潜在空間は、複数をスムーズに結合できる転送可能な視覚的表現をmvqに識別させる。

関連論文リスト

When LLaVA Meets Objects: Token Composition for Vision-Language-Models [31.554057603168214]
Mask-LLaVAは、様々なレベルの視覚的特徴を活用して、自己回帰視覚言語モデルのためのコンパクトで情報に富んだ視覚表現を作成するフレームワークである。すべてのトークンはトレーニング中に使用されるが、結果として得られるモデルは、特にテスト時にマスクベースのオブジェクトトークンの数を柔軟に減少させることができる。分析の結果,マルチレベル機能を組み合わせることで,より少ないトークンで効率的な学習が可能であり,テスト時に動的トークン選択を可能とし,性能を向上できることがわかった。
論文参考訳（メタデータ） (2026-02-04T18:50:46Z)
SAMTok: Representing Any Mask with Two Words [70.74140779649856]
我々は、任意の領域マスクを2つの特別なトークンに変換する離散マスクトークン化器SAMTokを提案する。マスクを新しい言語トークンとして扱うことで、SAMTokは基本的なMLLMがピクセル単位の能力を学ぶことができる。 QwenVL-SAMTokは、領域キャプション、領域VQA、接地会話、セグメンテーション参照、シーングラフ解析、マルチラウンドインタラクティブセグメンテーションに関する最先端または同等の結果を得る。
論文参考訳（メタデータ） (2026-01-22T16:44:09Z)
SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文参考訳（メタデータ） (2025-10-28T09:29:37Z)
Partition Generative Modeling: Masked Modeling Without Masks [10.751153162476726]
マスケ生成モデル(MGM)は、複雑なデータをキャプチャし、自己回帰モデル(AR)よりも高速な生成を可能にするために広く利用されている。本稿では,ARとMGMの強みを組み合わせた新しいアプローチである分割生成モデル(PGM)を紹介する。 OpenWebTextでは、PGMはサンプリングレイテンシとスループットを少なくとも5倍改善し、ジェネレーティブ・パープレクティビティ(Generative Perplexity)の優れたサンプルを生成する。
論文参考訳（メタデータ） (2025-05-24T21:44:32Z)
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers [70.38258823378557]
MLLM(Multimodal Large Language Models)はその巨大なサイズと多数の視覚トークンのために高い計算コストを被る。本稿では,レイヤの変換が視覚およびテキストトークンに与える影響を定量化する新しいメトリクスであるレイヤ貢献(LC)を紹介する。 LCを利用して非効率なレイヤを識別し,これらのレイヤの視覚的トークン更新を凍結する,トレーニング不要なShortVを提案する。
論文参考訳（メタデータ） (2025-04-01T07:47:55Z)
Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。 Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models [13.519389777060226]
LMM(Large Multimodal Models)にビジュアルトークンを追加すると、トークンの総数は数千に増加する。この問題に対処するため、視覚的トークンの一部を除去するトークンプルーニング手法が提案されている。提案手法であるDivPruneは冗長性を低減し,選択したトークンの最大多様性を実現する。
論文参考訳（メタデータ） (2025-03-04T01:33:14Z)
UniTok: A Unified Tokenizer for Visual Generation and Understanding [69.09699034036124]
我々は、UniTokを紹介した。UniTokは、個別のビジュアルトークンであり、生成のための細粒度の詳細をエンコードし、理解のための高レベルなセマンティクスをキャプチャする。本手法は,ドメイン固有の連続トークン化器に適合する,あるいは超過する,統一された離散トークン化器の上限を著しく高める。
論文参考訳（メタデータ） (2025-02-27T17:47:01Z)
Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。 IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文参考訳（メタデータ） (2024-12-03T18:59:10Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
Matryoshka Query Transformer for Large Vision-Language Models [103.84600181927884]
我々は,Materyoshka Query Transformer (MQT)を導入し,推論中に画像をmビジュアルトークンにエンコードする。単一のモデルを一度トレーニングし、フレキシブルかつ劇的に、推論時の視覚トークンの数を削減します。 MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
論文参考訳（メタデータ） (2024-05-29T17:39:42Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文参考訳（メタデータ） (2024-03-22T17:59:52Z)
CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文参考訳（メタデータ） (2022-11-18T18:27:35Z)
AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked Autoencoders [44.87786478095987]
Masked Autoencodersは、画像、テキスト、オーディオ、ビデオなどの一般的な表現を、可視データのトークンからマスクされた入力データによって学習する。本稿では,エンド・ツー・エンドのトレーニングが可能なMAEに対する適応型マスキング戦略を提案する。 AdaMAEは補助サンプリングネットワークを用いて意味的コンテキストに基づいて可視トークンをサンプリングする。
論文参考訳（メタデータ） (2022-11-16T18:59:48Z)
Extreme Masking for Learning Instance and Distributed Visual Representations [50.152264456036114]
本稿では,個々のトークン上の分散表現を同時に学習するためのスケーラブルなアプローチと,総合的なインスタンス表現を提案する。分散トークンを表すために自己アテンションブロックを使用し、続いてクロスアテンションブロックを使用して全体インスタンスを集約します。我々のモデルであるExtreMAは、未成熟なサブセットからのインスタンス表現をトレーニングして、無傷な入力からそれを予測する、プレーンなBYOLアプローチに従っています。
論文参考訳（メタデータ） (2022-06-09T17:59:43Z)
PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文参考訳（メタデータ） (2020-03-13T08:24:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。