論文の概要: VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling
- arxiv url: http://arxiv.org/abs/2408.01181v1
- Date: Fri, 2 Aug 2024 11:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 13:37:26.415002
- Title: VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling
- Title(参考訳): VAR-CLIP:視覚的自己回帰モデルを用いたテキスト・画像生成装置
- Authors: Qian Zhang, Xiangzi Dai, Ninghua Yang, Xiang An, Ziyong Feng, Xingyu Ren,
- Abstract要約: VARは「次世代予測」とは対照的に「次世代予測」を利用する新世代のパラダイムである
本稿では,Visual Auto-Regressive技術とCLIPの機能を統合する新しいテキスト・ツー・イメージ・モデルであるVAR-CLIPを紹介する。
- 参考スコア(独自算出の注目度): 5.0404054019742865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VAR is a new generation paradigm that employs 'next-scale prediction' as opposed to 'next-token prediction'. This innovative transformation enables auto-regressive (AR) transformers to rapidly learn visual distributions and achieve robust generalization. However, the original VAR model is constrained to class-conditioned synthesis, relying solely on textual captions for guidance. In this paper, we introduce VAR-CLIP, a novel text-to-image model that integrates Visual Auto-Regressive techniques with the capabilities of CLIP. The VAR-CLIP framework encodes captions into text embeddings, which are then utilized as textual conditions for image generation. To facilitate training on extensive datasets, such as ImageNet, we have constructed a substantial image-text dataset leveraging BLIP2. Furthermore, we delve into the significance of word positioning within CLIP for the purpose of caption guidance. Extensive experiments confirm VAR-CLIP's proficiency in generating fantasy images with high fidelity, textual congruence, and aesthetic excellence. Our project page are https://github.com/daixiangzi/VAR-CLIP
- Abstract(参考訳): VARは「次世代予測」とは対照的に「次世代予測」を用いる新世代のパラダイムである。
この革新的な変換により、自動回帰(AR)変換器は視覚分布を迅速に学習し、堅牢な一般化を実現することができる。
しかしながら、オリジナルのVARモデルは、ガイダンスのためのテキストキャプションのみに依存するため、クラス条件の合成に制約されている。
本稿では,Visual Auto-Regressive技術とCLIPの機能を統合する新しいテキスト・ツー・イメージ・モデルであるVAR-CLIPを紹介する。
VAR-CLIPフレームワークはキャプションをテキスト埋め込みにエンコードし、画像生成のテキスト条件として使用される。
ImageNetなどの広範なデータセットのトレーニングを容易にするため,BLIP2を利用した画像テキストデータセットを構築した。
さらに,キャプションガイダンスの目的で,CLIP内の単語位置決めの重要性について検討した。
VAR-CLIPは,高忠実度,テキストの整合性,美的卓越性を有する幻想画像の生成に優れていた。
私たちのプロジェクトページはhttps://github.com/daixiangzi/VAR-CLIPです。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - RWKV-CLIP: A Robust Vision-Language Representation Learner [31.501759213619646]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に改善した。
本稿では,Large Language Models(LLM)を利用して,Webベースのテキスト,合成キャプション,検出タグからコンテンツを合成・洗練する多種多様な記述生成フレームワークを提案する。
RWKV-CLIPは,変換器の効果的な並列学習とRNNの効率的な推論を組み合わせた,最初のRWKV駆動型視覚言語表現学習モデルである。
論文 参考訳(メタデータ) (2024-06-11T06:10:46Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Prompting Visual-Language Models for Dynamic Facial Expression
Recognition [14.783257517376041]
本稿ではDFER-CLIPと呼ばれる新しい視覚言語モデルを提案する。
これはCLIPモデルに基づいており、幅内動的顔表情認識のために設計されている。
DFEW、FERV39k、MAFWベンチマークの現在の教師付きDFER法と比較すると、最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-08-25T13:52:05Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。