論文の概要: Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text
- arxiv url: http://arxiv.org/abs/2503.01261v2
- Date: Tue, 11 Mar 2025 06:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:39:26.952548
- Title: Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text
- Title(参考訳): テキスト適応型コードブック学習の改善に向けて:長文による多階層型コードブックテキストアライメント
- Authors: Guotao Liang, Baoquan Zhang, Zhiyuan Wen, Junteng Zhao, Yunming Ye, Kola Ye, Yao He,
- Abstract要約: 本稿では,TA-VQ という新しいテキスト拡張コードブック学習フレームワークを提案する。
テキスト整合性のあるコードブック学習を改善するために視覚言語モデルを用いて、各画像に対してより長いテキストを生成する。
2つの課題に対処するために、長文を複数の粒度、すなわち単語、句、文に分割することを提案する。
- 参考スコア(独自算出の注目度): 17.35793995814643
- License:
- Abstract: Image quantization is a crucial technique in image generation, aimed at learning a codebook that encodes an image into a discrete token sequence. Recent advancements have seen researchers exploring learning multi-modal codebook (i.e., text-aligned codebook) by utilizing image caption semantics, aiming to enhance codebook performance in cross-modal tasks. However, existing image-text paired datasets exhibit a notable flaw in that the text descriptions tend to be overly concise, failing to adequately describe the images and provide sufficient semantic knowledge, resulting in limited alignment of text and codebook at a fine-grained level. In this paper, we propose a novel Text-Augmented Codebook Learning framework, named TA-VQ, which generates longer text for each image using the visual-language model for improved text-aligned codebook learning. However, the long text presents two key challenges: how to encode text and how to align codebook and text. To tackle two challenges, we propose to split the long text into multiple granularities for encoding, i.e., word, phrase, and sentence, so that the long text can be fully encoded without losing any key semantic knowledge. Following this, a hierarchical encoder and novel sampling-based alignment strategy are designed to achieve fine-grained codebook-text alignment. Additionally, our method can be seamlessly integrated into existing VQ models. Extensive experiments in reconstruction and various downstream tasks demonstrate its effectiveness compared to previous state-of-the-art approaches.
- Abstract(参考訳): 画像量子化は、イメージを離散トークンシーケンスにエンコードするコードブックの学習を目的とした、画像生成において重要なテクニックである。
近年、画像キャプションのセマンティクスを利用してマルチモーダル・コードブック(テキスト・アライン・コードブック)を学習し、クロスモーダルタスクにおけるコードブックのパフォーマンスを向上させる研究が進められている。
しかし、既存の画像とテキストのペア化データセットは、テキスト記述が過度に簡潔であり、画像が適切に記述され、十分な意味知識が得られず、テキストとコードブックの微粒化レベルでのアライメントが制限されるという、顕著な欠点を示している。
本稿では,テキスト対応のコードブック学習を改善するために,視覚モデルを用いて各画像の長文を生成する,TA-VQという新しいテキスト拡張型コードブック学習フレームワークを提案する。
しかし、長文はテキストをエンコードする方法と、コードブックとテキストの整列方法の2つの主要な課題を提示している。
2つの課題に対処するために、長文を複数の粒度、すなわち単語、句、文に分割して、キーセマンティック知識を失うことなく、長文を完全に符号化することを提案する。
その後、階層型エンコーダと新しいサンプリングベースのアライメント戦略を設計し、細粒度のコードブックテキストアライメントを実現する。
さらに,本手法は既存のVQモデルにシームレスに統合できる。
再建や下流の様々なタスクにおける大規模な実験は、従来の最先端のアプローチと比較して、その効果を実証している。
関連論文リスト
- CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization [14.01847471143144]
コンテクスト規則化(CoRe)を導入し、コンテクストトークンをプロンプトに正規化することで、新しい概念のテキスト埋め込みの学習を強化する。
CoReは、対応する画像の生成を必要とせずに任意のプロンプトに適用することができる。
包括的実験により,本手法は識別保存法とテキストアライメント法の両方において,いくつかの基本的手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-28T16:27:58Z) - LG-VQ: Language-Guided Codebook Learning [36.422599206253324]
ベクトル量子化(VQ)は高解像度かつ高忠実な画像合成において重要な技術である。
本稿ではLG-VQと呼ばれる新しい言語誘導型コードブック学習フレームワークを提案する。
提案手法は、再構成および様々なマルチモーダル下流タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-23T06:04:40Z) - Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling [15.132926378740882]
本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。
4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-15T07:24:13Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-07-29T01:21:54Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。