Fugu-MT 論文翻訳(概要): Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling

論文の概要: Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling

arxiv url: http://arxiv.org/abs/2403.10071v1
Date: Fri, 15 Mar 2024 07:24:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 18:19:27.851078
Title: Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling
Title（参考訳）: ベクトル量子化画像モデリングのためのパート・オブ・音声によるコードブック転送
Authors: Baoquan Zhang, Huaibin Wang, Luo Chuyao, Xutao Li, Liang Guotao, Yunming Ye, Xiaochen Qi, Yao He,
Abstract要約: 本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。 4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
参考スコア（独自算出の注目度）: 15.132926378740882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vector-Quantized Image Modeling (VQIM) is a fundamental research problem in image synthesis, which aims to represent an image with a discrete token sequence. Existing studies effectively address this problem by learning a discrete codebook from scratch and in a code-independent manner to quantize continuous representations into discrete tokens. However, learning a codebook from scratch and in a code-independent manner is highly challenging, which may be a key reason causing codebook collapse, i.e., some code vectors can rarely be optimized without regard to the relationship between codes and good codebook priors such that die off finally. In this paper, inspired by pretrained language models, we find that these language models have actually pretrained a superior codebook via a large number of text corpus, but such information is rarely exploited in VQIM. To this end, we propose a novel codebook transfer framework with part-of-speech, called VQCT, which aims to transfer a well-trained codebook from pretrained language models to VQIM for robust codebook learning. Specifically, we first introduce a pretrained codebook from language models and part-of-speech knowledge as priors. Then, we construct a vision-related codebook with these priors for achieving codebook transfer. Finally, a novel codebook transfer network is designed to exploit abundant semantic relationships between codes contained in pretrained codebooks for robust VQIM codebook learning. Experimental results on four datasets show that our VQCT method achieves superior VQIM performance over previous state-of-the-art methods.
Abstract（参考訳）: Vector-Quantized Image Modeling (VQIM)は、画像合成における基本的な研究課題であり、離散トークンシーケンスを持つ画像を表現することを目的としている。既存の研究では、離散コードブックをスクラッチから学習し、コードに依存しない方法で、連続表現を離散トークンに定量化することで、この問題に効果的に対処している。しかし、コードブックをスクラッチから学習し、コードに依存しない方法で学ぶことは非常に困難であり、コードブックが崩壊する鍵となる理由である可能性がある。本稿では,事前学習された言語モデルにインスパイアされたこれらの言語モデルは,多数のテキストコーパスを通じて,実際に優れたコードブックを事前学習していることがわかったが,VQIMではそのような情報が活用されることはめったにない。そこで本研究では,事前学習した言語モデルから,堅牢なコードブック学習のためのVQIMへ,十分に訓練されたコードブックを転送することを目的とした,VQCTというパート・オブ・スペルによる新しいコードブック転送フレームワークを提案する。具体的には、まず、言語モデルから事前学習したコードブックと、音声の知識を先行として紹介する。そこで我々は,コードブック転送を実現するために,これらの先行情報を用いた視覚関連コードブックを構築した。最後に、新しいコードブック転送ネットワークは、トレーニング済みのコードブックに含まれるコード間の豊富な意味的関係を利用して、堅牢なVQIMコードブック学習を行うように設計されている。 4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。

関連論文リスト

Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text [17.35793995814643]
本稿では,TA-VQ という新しいテキスト拡張コードブック学習フレームワークを提案する。テキスト整合性のあるコードブック学習を改善するために視覚言語モデルを用いて、各画像に対してより長いテキストを生成する。 2つの課題に対処するために、長文を複数の粒度、すなわち単語、句、文に分割することを提案する。
論文参考訳（メタデータ） (2025-03-03T07:38:18Z)
Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。 IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文参考訳（メタデータ） (2024-12-03T18:59:10Z)
Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99% [35.710953589794855]
本稿では,VQGAN-LC (Large Codebook) という新しい画像量子化モデルを提案する。本稿では,画像再構成,画像分類,GPTを用いた自己回帰画像生成,拡散およびフローベース生成モデルによる画像生成など,さまざまなタスクにおいて,モデルの性能が優れていることを示す。
論文参考訳（メタデータ） (2024-06-17T17:59:57Z)
LG-VQ: Language-Guided Codebook Learning [36.422599206253324]
ベクトル量子化(VQ)は高解像度かつ高忠実な画像合成において重要な技術である。本稿ではLG-VQと呼ばれる新しい言語誘導型コードブック学習フレームワークを提案する。提案手法は、再構成および様々なマルチモーダル下流タスクにおいて優れた性能を実現する。
論文参考訳（メタデータ） (2024-05-23T06:04:40Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文参考訳（メタデータ） (2023-07-27T18:31:04Z)
Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T02:15:53Z)
Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文参考訳（メタデータ） (2023-05-08T10:00:05Z)
CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文参考訳（メタデータ） (2022-01-26T10:54:30Z)
CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文参考訳（メタデータ） (2021-08-10T10:08:21Z)
InferCode: Self-Supervised Learning of Code Representations by Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。 ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。 Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文参考訳（メタデータ） (2020-12-13T10:33:41Z)
GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文参考訳（メタデータ） (2020-09-17T15:25:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。