論文の概要: ArtAug: Enhancing Text-to-Image Generation through Synthesis-Understanding Interaction
- arxiv url: http://arxiv.org/abs/2412.12888v1
- Date: Tue, 17 Dec 2024 13:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:20.824693
- Title: ArtAug: Enhancing Text-to-Image Generation through Synthesis-Understanding Interaction
- Title(参考訳): ArtAug: 合成-非依存インタラクションによるテキスト-画像生成の強化
- Authors: Zhongjie Duan, Qianyi Zhao, Cen Chen, Daoyuan Chen, Wenmeng Zhou, Yaliang Li, Yingda Chen,
- Abstract要約: テキスト・ツー・イメージ・モデルを改善するためのArtAugという新しい手法を提案する。
インタラクションでは、画像理解モデルによって暗黙的に学習された人間の好みを利用して、きめ細かい提案を行う。
相互作用によってもたらされる拡張は、追加の強化モジュールを通じて合成モデル自体に反復的に融合される。
様々な評価指標は、ArtAugが追加の計算コストを発生させることなく、テキスト・ツー・イメージモデルの生成能力を向上させることを一貫して示している。
- 参考スコア(独自算出の注目度): 32.48036808724505
- License:
- Abstract: The emergence of diffusion models has significantly advanced image synthesis. The recent studies of model interaction and self-corrective reasoning approach in large language models offer new insights for enhancing text-to-image models. Inspired by these studies, we propose a novel method called ArtAug for enhancing text-to-image models in this paper. To the best of our knowledge, ArtAug is the first one that improves image synthesis models via model interactions with understanding models. In the interactions, we leverage human preferences implicitly learned by image understanding models to provide fine-grained suggestions for image synthesis models. The interactions can modify the image content to make it aesthetically pleasing, such as adjusting exposure, changing shooting angles, and adding atmospheric effects. The enhancements brought by the interaction are iteratively fused into the synthesis model itself through an additional enhancement module. This enables the synthesis model to directly produce aesthetically pleasing images without any extra computational cost. In the experiments, we train the ArtAug enhancement module on existing text-to-image models. Various evaluation metrics consistently demonstrate that ArtAug enhances the generative capabilities of text-to-image models without incurring additional computational costs. The source code and models will be released publicly.
- Abstract(参考訳): 拡散モデルの出現は、画像合成を著しく進歩させた。
最近の大規模言語モデルにおけるモデル相互作用と自己修正的推論手法の研究は、テキスト・ツー・イメージモデルを強化するための新たな洞察を提供する。
これらの研究に触発されて,本論文では,テキスト・ツー・イメージ・モデルを改善するArtAugという新しい手法を提案する。
私たちの知る限りでは、ArtAugは理解モデルとのモデル相互作用を通じて画像合成モデルを改善する最初のものだ。
インタラクションでは、画像理解モデルによって暗黙的に学習された人間の嗜好を利用して、画像合成モデルに対してきめ細かい提案を行う。
インタラクションは、露出の調整、撮影角度の変更、大気効果の追加など、画像の内容を変更することで、審美的に喜ばせることができる。
相互作用によってもたらされる拡張は、追加の強化モジュールを通じて合成モデル自体に反復的に融合される。
これにより、合成モデルは、余分な計算コストを伴わずに、美的な画像を直接生成できる。
実験では、既存のテキスト・ツー・イメージモデルでArtAug拡張モジュールをトレーニングする。
様々な評価指標は、ArtAugが追加の計算コストを発生させることなく、テキスト・ツー・イメージモデルの生成能力を向上させることを一貫して示している。
ソースコードとモデルは一般公開される予定だ。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - SGDiff: A Style Guided Diffusion Model for Fashion Synthesis [2.4578723416255754]
提案したSGDiffは、画像のモダリティと事前訓練されたテキスト-画像拡散モデルを組み合わせることで、創造的なファッション画像合成を容易にする。
補足的なスタイルのガイダンスを取り入れることで、テキストから画像への拡散モデルの限界に対処する。
本稿では、ファッション画像合成に特化して設計されたSG-Fashionという新しいデータセットも紹介する。
論文 参考訳(メタデータ) (2023-08-15T07:20:22Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。
トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。
次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (2022-08-25T17:45:49Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。