Fugu-MT 論文翻訳(概要): Factorized Visual Tokenization and Generation

論文の概要: Factorized Visual Tokenization and Generation

arxiv url: http://arxiv.org/abs/2411.16681v2
Date: Wed, 27 Nov 2024 17:04:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.298819
Title: Factorized Visual Tokenization and Generation
Title（参考訳）: ファクトライズされた視覚トークン化と生成
Authors: Zechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou,
Abstract要約: 本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
参考スコア（独自算出の注目度）: 37.56136469262736
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Visual tokenizers are fundamental to image generation. They convert visual data into discrete tokens, enabling transformer-based models to excel at image generation. Despite their success, VQ-based tokenizers like VQGAN face significant limitations due to constrained vocabulary sizes. Simply expanding the codebook often leads to training instability and diminishing performance gains, making scalability a critical challenge. In this work, we introduce Factorized Quantization (FQ), a novel approach that revitalizes VQ-based tokenizers by decomposing a large codebook into multiple independent sub-codebooks. This factorization reduces the lookup complexity of large codebooks, enabling more efficient and scalable visual tokenization. To ensure each sub-codebook captures distinct and complementary information, we propose a disentanglement regularization that explicitly reduces redundancy, promoting diversity across the sub-codebooks. Furthermore, we integrate representation learning into the training process, leveraging pretrained vision models like CLIP and DINO to infuse semantic richness into the learned representations. This design ensures our tokenizer captures diverse semantic levels, leading to more expressive and disentangled representations. Experiments show that the proposed FQGAN model substantially improves the reconstruction quality of visual tokenizers, achieving state-of-the-art performance. We further demonstrate that this tokenizer can be effectively adapted into auto-regressive image generation. https://showlab.github.io/FQGAN
Abstract（参考訳）: ビジュアルトークン化器は画像生成の基本である。視覚データを個別のトークンに変換し、トランスフォーマーベースのモデルで画像生成に優れる。その成功にもかかわらず、VQGANのようなVQベースのトークン化器は、制限付き語彙サイズのため、重大な制限に直面している。単にコードブックを拡張するだけで、トレーニングの不安定さやパフォーマンス向上の低下につながることが多く、スケーラビリティが重要な課題になります。本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization (FQ)を紹介する。このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。そこで本研究では,各サブコードブックが個別かつ補完的な情報を確実に取得するために,冗長性を明示的に低減し,サブコードブック間の多様性を向上するアンタングル化正規化を提案する。さらに、CLIPやDINOといった事前学習された視覚モデルを利用して、表現学習をトレーニングプロセスに統合し、意味豊かさを学習表現に注入する。この設計により、トークンーは多様なセマンティックレベルをキャプチャし、より表現力が高く不整合な表現につながる。実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。さらに,このトークンを自動回帰画像生成に効果的に適用できることを実証した。 https://showlab.github.io/FQGAN

関連論文リスト

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:55Z)
End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文参考訳（メタデータ） (2025-05-15T17:59:39Z)
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。 HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文参考訳（メタデータ） (2025-03-27T20:50:38Z)
Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文参考訳（メタデータ） (2025-03-17T17:58:30Z)
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation [73.98487014058286]
SemHiTokは、Semantic-Guided Hierarchical Codebookを介して統合された画像トークンである。 SemHiTokは、他の統一トークン化器と比較して256X256解像度で優れたrFIDスコアが得られることを示す。
論文参考訳（メタデータ） (2025-03-09T20:42:34Z)
Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文参考訳（メタデータ） (2025-03-07T10:34:04Z)
Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。 IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文参考訳（メタデータ） (2024-12-03T18:59:10Z)
Image Understanding Makes for A Good Tokenizer for Image Generation [62.875788091204626]
我々は,トークンシーケンスにイメージを投影する効果的なトークン化器に依存する,トークンベースのIGフレームワークを提案する。我々は、強力なIU機能を持つトークン化装置が、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIG性能を実現することを示す。
論文参考訳（メタデータ） (2024-11-07T03:55:23Z)
SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook [9.993066868670283]
本稿では,SGC-VQGANをセマンティックオンラインクラスタリング法で導入し,一貫性セマンティックラーニングによるトークンセマンティクスを強化する。提案手法は時間空間的に一貫したセマンティック・コードブックを構築し,コードブックの崩壊問題と不均衡なトークン・セマンティクスに対処する。
論文参考訳（メタデータ） (2024-09-09T23:12:43Z)
UniCode: Learning a Unified Codebook for Multimodal Large Language Models [33.48624855154342]
マルチモーダル大言語モデル(MLLM)の領域内での新しいアプローチである textbfUniCode を提案する。 UniCodeは、視覚、テキスト、潜在的に他の種類の信号を効率的にトークン化する統一されたコードブックを学習する。トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
論文参考訳（メタデータ） (2024-03-14T03:29:58Z)
Finite Scalar Quantization: VQ-VAE Made Simple [26.351016719675766]
我々は、VQ-VAEの潜在表現におけるベクトル量子化(VQ)を、有限スカラー量子化(FSQ)と呼ばれる単純なスキームで置き換えることを提案する。それぞれの次元と値の数を適切に選択することにより、VQと同じコードブックサイズが得られる。画像生成にはFSQとMaskGIT,深度推定にはUViMを用いる。
論文参考訳（メタデータ） (2023-09-27T09:13:40Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T02:15:53Z)
Masked Autoencoders are Robust Data Augmentors [90.34825840657774]
ディープニューラルネットワークの一般化には、画像拡張のような正規化技術が必要である。本稿では,トレーニングプロセスの正規化に向けて,新たな拡張の視点を提案する。このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。
論文参考訳（メタデータ） (2022-06-10T02:41:48Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)
Robust Training of Vector Quantized Bottleneck Models [21.540133031071438]
ベクトル量子変分自動エンコーダモデル(VQ-VAEs)を用いた離散表現の信頼性と効率的な訓練法を示す。教師なし表現学習では、変分オートエンコーダ(VAE)のような連続潜伏変数モデルの代替となる。
論文参考訳（メタデータ） (2020-05-18T08:23:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。