論文の概要: ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
- arxiv url: http://arxiv.org/abs/2411.17176v1
- Date: Tue, 26 Nov 2024 07:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:37:00.428323
- Title: ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
- Title(参考訳): ChatGen:フリースタイルのチャットからテキストと画像の自動生成
- Authors: Chengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo,
- Abstract要約: ChatGen-Evoは、モデルに不可欠な自動化スキルを徐々に装備する多段階進化戦略である。
ChatGen-Evoは様々なベースラインのパフォーマンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 18.002126814513417
- License:
- Abstract: Despite the significant advancements in text-to-image (T2I) generative models, users often face a trial-and-error challenge in practical scenarios. This challenge arises from the complexity and uncertainty of tedious steps such as crafting suitable prompts, selecting appropriate models, and configuring specific arguments, making users resort to labor-intensive attempts for desired images. This paper proposes Automatic T2I generation, which aims to automate these tedious steps, allowing users to simply describe their needs in a freestyle chatting way. To systematically study this problem, we first introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It features high-quality paired data with diverse freestyle inputs, enabling comprehensive evaluation of automatic T2I models across all steps. Additionally, recognizing Automatic T2I as a complex multi-step reasoning task, we propose ChatGen-Evo, a multi-stage evolution strategy that progressively equips models with essential automation skills. Through extensive evaluation across step-wise accuracy and image quality, ChatGen-Evo significantly enhances performance over various baselines. Our evaluation also uncovers valuable insights for advancing automatic T2I. All our data, code, and models will be available in \url{https://chengyou-jia.github.io/ChatGen-Home}
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルが大幅に進歩しているにもかかわらず、ユーザは現実的なシナリオにおいて試行錯誤の課題に直面することが多い。
この課題は、適切なプロンプトの作成、適切なモデルの選択、特定の引数の設定といった面倒なステップの複雑さと不確実性から生じ、ユーザーは望ましい画像のために労働集約的な試みに頼る。
本稿では,これらの面倒なステップを自動化することを目的とした自動T2I生成を提案する。
この問題を体系的に研究するために,我々はまず,自動T2Iのための新しいベンチマークChatGenBenchを紹介する。
多様なフリースタイルの入力を持つ高品質なペアデータを備え、全ステップにわたって自動T2Iモデルの包括的な評価を可能にする。
さらに、Automatic T2Iを複雑な多段階推論タスクとして認識し、本質的な自動化スキルを持つモデルを段階的に装備する多段階進化戦略ChatGen-Evoを提案する。
ChatGen-Evoは、ステップワイズ精度と画質の広範な評価を通じて、さまざまなベースラインのパフォーマンスを大幅に向上させる。
また,自動T2Iを前進させる上での貴重な知見も明らかにした。
すべてのデータ、コード、モデルは \url{https://chengyou-jia.github.io/ChatGen-Home} で利用可能になります。
関連論文リスト
- Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation [115.63085345822175]
本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己修正システムであるIdean to Image'を紹介し,画像の自動設計と生成を行う。
大規模マルチモーダルモデル(LMM)に基づくシステムでは,類似のマルチモーダル自己抑止能力が得られるかを検討する。
論文 参考訳(メタデータ) (2023-10-12T17:34:20Z) - Mini-DALLE3: Interactive Text to Image by Prompting Large Language
Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。
最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。
我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T16:53:40Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - Automatic Generation of German Drama Texts Using Fine Tuned GPT-2 Models [3.1360838651190797]
この研究は、ドイツのドラマテキストの自動生成に向けられている。
GPT-2モデルを微調整し、キーワードに基づいてシーンの輪郭を生成する方法と、シーンの輪郭からシーンを生成する第2モデルを微調整する手法を提案する。
論文 参考訳(メタデータ) (2023-01-08T23:12:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。