論文の概要: LG-VQ: Language-Guided Codebook Learning
- arxiv url: http://arxiv.org/abs/2405.14206v1
- Date: Thu, 23 May 2024 06:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:45:29.218615
- Title: LG-VQ: Language-Guided Codebook Learning
- Title(参考訳): LG-VQ: 言語によるコードブック学習
- Authors: Guotao Liang, Baoquan Zhang, Yaowei Wang, Xutao Li, Yunming Ye, Huaibin Wang, Chuyao Luo, Kola Ye, linfeng Luo,
- Abstract要約: ベクトル量子化(VQ)は高解像度かつ高忠実な画像合成において重要な技術である。
本稿ではLG-VQと呼ばれる新しい言語誘導型コードブック学習フレームワークを提案する。
提案手法は、再構成および様々なマルチモーダル下流タスクにおいて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 36.422599206253324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector quantization (VQ) is a key technique in high-resolution and high-fidelity image synthesis, which aims to learn a codebook to encode an image with a sequence of discrete codes and then generate an image in an auto-regression manner. Although existing methods have shown superior performance, most methods prefer to learn a single-modal codebook (\emph{e.g.}, image), resulting in suboptimal performance when the codebook is applied to multi-modal downstream tasks (\emph{e.g.}, text-to-image, image captioning) due to the existence of modal gaps. In this paper, we propose a novel language-guided codebook learning framework, called LG-VQ, which aims to learn a codebook that can be aligned with the text to improve the performance of multi-modal downstream tasks. Specifically, we first introduce pre-trained text semantics as prior knowledge, then design two novel alignment modules (\emph{i.e.}, Semantic Alignment Module, and Relationship Alignment Module) to transfer such prior knowledge into codes for achieving codebook text alignment. In particular, our LG-VQ method is model-agnostic, which can be easily integrated into existing VQ models. Experimental results show that our method achieves superior performance on reconstruction and various multi-modal downstream tasks.
- Abstract(参考訳): ベクトル量子化(VQ)は、高解像度で高忠実な画像合成において重要な技術であり、コードブックを学習して、離散コードで画像をエンコードし、自動回帰的に画像を生成することを目的としている。
既存の手法は優れた性能を示してきたが、ほとんどの手法は単一モードのコードブック (\emph{e g }, image) を学習することを好んでおり、結果として、コードブックがマルチモードの下流タスク (\emph{e g }, text-to-image, image casting) に適用された場合、モダルギャップの存在により、準最適性能をもたらす。
本稿では,LG-VQと呼ばれる新しい言語指導型コードブック学習フレームワークを提案する。
具体的には、まず事前学習したテキストセマンティクスを事前知識として導入し、次に2つの新しいアライメントモジュール(\emph{i.e.}、セマンティックアライメントモジュール、リレーショナルアライメントモジュール)を設計し、コードブックのテキストアライメントを達成するためのコードに変換する。
特にLG-VQ法はモデルに依存しないため,既存のVQモデルと容易に統合できる。
実験結果から,本手法は再建および多モード下流タスクにおいて優れた性能を発揮することが示された。
関連論文リスト
- Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling [15.132926378740882]
本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。
4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-15T07:24:13Z) - UniCode: Learning a Unified Codebook for Multimodal Large Language Models [33.48624855154342]
マルチモーダル大言語モデル(MLLM)の領域内での新しいアプローチである textbfUniCode を提案する。
UniCodeは、視覚、テキスト、潜在的に他の種類の信号を効率的にトークン化する統一されたコードブックを学習する。
トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
論文 参考訳(メタデータ) (2024-03-14T03:29:58Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Tackling VQA with Pretrained Foundation Models without Further Training [0.0]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて最先端の結果を得た。
これらのLCMの能力により、研究者は視覚的質問回答(VQA)の使用方法を模索している。
本稿では、VQA問題を解決するために、事前訓練されたLLMと他の基礎モデルを組み合わせる方法を検討する。
論文 参考訳(メタデータ) (2023-09-27T08:35:24Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。