Fugu-MT 論文翻訳(概要): LG-VQ: Language-Guided Codebook Learning

論文の概要: LG-VQ: Language-Guided Codebook Learning

arxiv url: http://arxiv.org/abs/2405.14206v2
Date: Wed, 09 Oct 2024 04:30:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 02:48:54.980572
Title: LG-VQ: Language-Guided Codebook Learning
Title（参考訳）: LG-VQ: 言語によるコードブック学習
Authors: Guotao Liang, Baoquan Zhang, Yaowei Wang, Xutao Li, Yunming Ye, Huaibin Wang, Chuyao Luo, Kola Ye, linfeng Luo,
Abstract要約: ベクトル量子化(VQ)は高解像度かつ高忠実な画像合成において重要な技術である。本稿ではLG-VQと呼ばれる新しい言語誘導型コードブック学習フレームワークを提案する。提案手法は、再構成および様々なマルチモーダル下流タスクにおいて優れた性能を実現する。
参考スコア（独自算出の注目度）: 36.422599206253324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vector quantization (VQ) is a key technique in high-resolution and high-fidelity image synthesis, which aims to learn a codebook to encode an image with a sequence of discrete codes and then generate an image in an auto-regression manner. Although existing methods have shown superior performance, most methods prefer to learn a single-modal codebook (\emph{e.g.}, image), resulting in suboptimal performance when the codebook is applied to multi-modal downstream tasks (\emph{e.g.}, text-to-image, image captioning) due to the existence of modal gaps. In this paper, we propose a novel language-guided codebook learning framework, called LG-VQ, which aims to learn a codebook that can be aligned with the text to improve the performance of multi-modal downstream tasks. Specifically, we first introduce pre-trained text semantics as prior knowledge, then design two novel alignment modules (\emph{i.e.}, Semantic Alignment Module, and Relationship Alignment Module) to transfer such prior knowledge into codes for achieving codebook text alignment. In particular, our LG-VQ method is model-agnostic, which can be easily integrated into existing VQ models. Experimental results show that our method achieves superior performance on reconstruction and various multi-modal downstream tasks.
Abstract（参考訳）: ベクトル量子化(VQ)は、高解像度で高忠実な画像合成において重要な技術であり、コードブックを学習して、離散コードで画像をエンコードし、自動回帰的に画像を生成することを目的としている。既存の手法は優れた性能を示してきたが、ほとんどの手法は単一モードのコードブック (\emph{e g }, image) を学習することを好んでおり、結果として、コードブックがマルチモードの下流タスク (\emph{e g }, text-to-image, image casting) に適用された場合、モダルギャップの存在により、準最適性能をもたらす。本稿では,LG-VQと呼ばれる新しい言語指導型コードブック学習フレームワークを提案する。具体的には、まず事前学習したテキストセマンティクスを事前知識として導入し、次に2つの新しいアライメントモジュール(\emph{i.e.}、セマンティックアライメントモジュール、リレーショナルアライメントモジュール)を設計し、コードブックのテキストアライメントを達成するためのコードに変換する。特にLG-VQ法はモデルに依存しないため,既存のVQモデルと容易に統合できる。実験結果から,本手法は再建および多モード下流タスクにおいて優れた性能を発揮することが示された。

関連論文リスト

Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。 Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文参考訳（メタデータ） (2025-08-04T11:49:20Z)
VTD-CLIP: Video-to-Text Discretization via Prompting CLIP [44.51452778561945]
視覚言語モデルは視覚的および言語的理解を橋渡しし、ビデオ認識タスクに強力であることが証明されている。既存のアプローチは、主にパラメータ効率の良い画像テキスト事前学習モデルの微調整に依存している。本稿では,時間的モデリングの不十分さによる限定的な解釈可能性や一般化の低さに対処する,ビデオからテキストへの離散化フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T07:27:19Z)
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation [71.68085485928007]
我々はSemHiTokを紹介した。Semantic-Guided Hierarchical codebookによる統合画像トークンである。本稿では,LLaVA-v1.5設定下での画像再構成とマルチモーダル理解において,SemHiTokがSOTA性能を実現することを示す。また、SemHiTokを用いた統合MLLMを開発し、マルチモーダル理解および生成タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2025-03-09T20:42:34Z)
Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text [17.35793995814643]
本稿では,TA-VQ という新しいテキスト拡張コードブック学習フレームワークを提案する。テキスト整合性のあるコードブック学習を改善するために視覚言語モデルを用いて、各画像に対してより長いテキストを生成する。 2つの課題に対処するために、長文を複数の粒度、すなわち単語、句、文に分割することを提案する。
論文参考訳（メタデータ） (2025-03-03T07:38:18Z)
Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling [15.132926378740882]
本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。 4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
論文参考訳（メタデータ） (2024-03-15T07:24:13Z)
UniCode: Learning a Unified Codebook for Multimodal Large Language Models [33.48624855154342]
マルチモーダル大言語モデル(MLLM)の領域内での新しいアプローチである textbfUniCode を提案する。 UniCodeは、視覚、テキスト、潜在的に他の種類の信号を効率的にトークン化する統一されたコードブックを学習する。トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
論文参考訳（メタデータ） (2024-03-14T03:29:58Z)
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。 VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文参考訳（メタデータ） (2023-12-14T18:59:43Z)
Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。 RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文参考訳（メタデータ） (2023-11-27T09:20:12Z)
Tackling VQA with Pretrained Foundation Models without Further Training [0.0]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて最先端の結果を得た。これらのLCMの能力により、研究者は視覚的質問回答(VQA)の使用方法を模索している。本稿では、VQA問題を解決するために、事前訓練されたLLMと他の基礎モデルを組み合わせる方法を検討する。
論文参考訳（メタデータ） (2023-09-27T08:35:24Z)
Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T02:15:53Z)
Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文参考訳（メタデータ） (2023-05-19T14:56:05Z)
Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文参考訳（メタデータ） (2021-04-18T16:56:07Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。