論文の概要: CLIPAG: Towards Generator-Free Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2306.16805v1
- Date: Thu, 29 Jun 2023 09:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 13:57:18.653790
- Title: CLIPAG: Towards Generator-Free Text-to-Image Generation
- Title(参考訳): CLIPAG: ジェネレータフリーのテキスト・ツー・イメージ生成を目指して
- Authors: Roy Ganz, Michael Elad
- Abstract要約: 知覚的配向勾配(PAG)の研究を視覚言語アーキテクチャに拡張する。
我々は,CLIPAGを「プラグ-n-play」方式でシームレスに統合することで,視覚言語生成アプリケーションを大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 21.18135854494779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceptually Aligned Gradients (PAG) refer to an intriguing property observed
in robust image classification models, wherein their input gradients align with
human perception and pose semantic meanings. While this phenomenon has gained
significant research attention, it was solely studied in the context of
unimodal vision-only architectures. In this work, we extend the study of PAG to
Vision-Language architectures, which form the foundations for diverse
image-text tasks and applications. Through an adversarial robustification
finetuning of CLIP, we demonstrate that robust Vision-Language models exhibit
PAG in contrast to their vanilla counterparts. This work reveals the merits of
CLIP with PAG (CLIPAG) in several vision-language generative tasks. Notably, we
show that seamlessly integrating CLIPAG in a "plug-n-play" manner leads to
substantial improvements in vision-language generative applications.
Furthermore, leveraging its PAG property, CLIPAG enables text-to-image
generation without any generative model, which typically requires huge
generators.
- Abstract(参考訳): Perceptually Aligned Gradients (PAG)は、頑健な画像分類モデルで観察される興味深い特性を指し、入力勾配は人間の知覚と一致し、意味的な意味を表わす。
この現象は大きな研究の注目を集めているが、一様視のみのアーキテクチャの文脈でのみ研究されている。
本稿では,pagの研究を視覚言語アーキテクチャに拡張し,多様な画像テキストタスクやアプリケーションの基礎を形成する。
クリップの可逆的ロバスト化の微調整を通じて、ロバストな視覚言語モデルがバニラモデルとは対照的にpagを示すことを実証する。
この研究は、複数の視覚言語生成タスクにおいて、CLIP と PAG (CLIPAG) の利点を明らかにする。
特に,CLIPAGを"plug-n-play"形式でシームレスに統合することで,視覚言語生成アプリケーションを大幅に改善することを示す。
さらに、PAGプロパティを活用することで、CLIPAGは生成モデルなしでテキストから画像を生成することができる。
関連論文リスト
- Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models [7.356870418870544]
Pixelベースの言語モデルは、サブワードベースの言語モデリングに代わる魅力的な選択肢として登場した。
PIXELは、レンダリングされたテキストで事前トレーニングされたビジョントランスフォーマーである。
論文 参考訳(メタデータ) (2024-10-15T19:21:23Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Bridging Different Language Models and Generative Vision Models for
Text-to-Image Generation [12.024554708901514]
テキスト・ツー・イメージ生成のための多種多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
私たちのパイプラインは、様々な言語モデルと生成視覚モデルと互換性があり、異なる構造を収容しています。
論文 参考訳(メタデータ) (2024-03-12T17:50:11Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。