論文の概要: Learning Visual Generative Priors without Text
- arxiv url: http://arxiv.org/abs/2412.07767v1
- Date: Tue, 10 Dec 2024 18:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:45.531390
- Title: Learning Visual Generative Priors without Text
- Title(参考訳): テキストを使わずに視覚的生成優先を学習する
- Authors: Shuailei Ma, Kecheng Zheng, Ying Wei, Wei Wu, Fan Lu, Yifei Zhang, Chen-wei Xie, Jiapeng Zhu, Yujun Shen,
- Abstract要約: I2I(Image-to-image)の生成について検討した。
我々のI2Iモデルは、より基礎的な視覚的先行として機能し、既存のT2Iモデルよりも同等または優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 44.59984194412878
- License:
- Abstract: Although text-to-image (T2I) models have recently thrived as visual generative priors, their reliance on high-quality text-image pairs makes scaling up expensive. We argue that grasping the cross-modality alignment is not a necessity for a sound visual generative prior, whose focus should be on texture modeling. Such a philosophy inspires us to study image-to-image (I2I) generation, where models can learn from in-the-wild images in a self-supervised manner. We first develop a pure vision-based training framework, Lumos, and confirm the feasibility and the scalability of learning I2I models. We then find that, as an upstream task of T2I, our I2I model serves as a more foundational visual prior and achieves on-par or better performance than existing T2I models using only 1/10 text-image pairs for fine-tuning. We further demonstrate the superiority of I2I priors over T2I priors on some text-irrelevant visual generative tasks, like image-to-3D and image-to-video.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは近年、視覚的生成の先行として発展してきたが、高品質なテキスト・イメージ・ペアに依存しているため、スケールアップは高価である。
我々は,テクスチャ・モデリングに焦点をあてた視覚的先行生成において,モーダリティ・アライメントの把握は必須ではないと論じる。
このような哲学は、画像から画像への(I2I)生成の研究に刺激を与えます。
まず、純粋な視覚ベースのトレーニングフレームワークであるLumosを開発し、I2Iモデルの実現可能性とスケーラビリティを確認します。
そして、我々のI2Iモデルは、T2Iの上流タスクとして、より基礎的な視覚的先行として機能し、1/10のテキストイメージペアのみを使用して、既存のT2Iモデルよりも高いパフォーマンスを達成する。
さらに,画像から3D,画像からビデオまで,テキストに依存しない視覚生成タスクにおいて,T2IよりもI2I先行の方が優れていることを示す。
関連論文リスト
- Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。
本調査では,T2Iに関する最近の研究440件について概説する。
論文 参考訳(メタデータ) (2024-11-25T07:40:32Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - DreamSync: Aligning Text-to-Image Generation with Image Understanding
Feedback [38.81701138951801]
テキスト・ツー・イメージ・モデル(T2I)は、ユーザの入力テキストに対して審美的で忠実なイメージを作成するのに依然として苦労している。
本稿では,テキスト入力に忠実なT2Iモデルを改善する設計によるモデルに依存しないトレーニングアルゴリズムであるDreamSyncを紹介する。
その単純さにもかかわらず、DreamSyncは2つの拡散ベースのT2Iモデルのセマンティックアライメントと美的魅力の両方を改善している。
論文 参考訳(メタデータ) (2023-11-29T03:42:16Z) - Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文 参考訳(メタデータ) (2023-05-25T16:30:07Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。