論文の概要: DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual
Design
- arxiv url: http://arxiv.org/abs/2310.15144v1
- Date: Mon, 23 Oct 2023 17:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:04:14.655464
- Title: DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual
Design
- Title(参考訳): DesignBench: ビジュアルデザインを想像するためのDALL-E 3の探索とベンチマーク
- Authors: Kevin Lin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Lijuan Wang
- Abstract要約: ビジュアルデザインシナリオに適したテキスト・ツー・イメージ(T2I)生成ベンチマークであるDesignBenchを紹介する。
DesignBenchベンチマークでは、画像テキストアライメント、視覚美学、デザインクリエイティビティの基準に対して、生成された画像に対する人間による評価を行う。
GPT-4Vを用いた最初の自動画像生成評価器を提案する。
- 参考スコア(独自算出の注目度): 124.56730013968543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DEsignBench, a text-to-image (T2I) generation benchmark tailored
for visual design scenarios. Recent T2I models like DALL-E 3 and others, have
demonstrated remarkable capabilities in generating photorealistic images that
align closely with textual inputs. While the allure of creating visually
captivating images is undeniable, our emphasis extends beyond mere aesthetic
pleasure. We aim to investigate the potential of using these powerful models in
authentic design contexts. In pursuit of this goal, we develop DEsignBench,
which incorporates test samples designed to assess T2I models on both "design
technical capability" and "design application scenario." Each of these two
dimensions is supported by a diverse set of specific design categories. We
explore DALL-E 3 together with other leading T2I models on DEsignBench,
resulting in a comprehensive visual gallery for side-by-side comparisons. For
DEsignBench benchmarking, we perform human evaluations on generated images in
DEsignBench gallery, against the criteria of image-text alignment, visual
aesthetic, and design creativity. Our evaluation also considers other
specialized design capabilities, including text rendering, layout composition,
color harmony, 3D design, and medium style. In addition to human evaluations,
we introduce the first automatic image generation evaluator powered by GPT-4V.
This evaluator provides ratings that align well with human judgments, while
being easily replicable and cost-efficient. A high-resolution version is
available at
https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
- Abstract(参考訳): ビジュアルデザインシナリオに適したテキスト・ツー・イメージ(T2I)生成ベンチマークであるDesignBenchを紹介する。
DALL-E 3などの最近のT2Iモデルは、テキスト入力と密接に一致したフォトリアリスティックな画像を生成する際、顕著な能力を示した。
視覚的に捕食される画像を作成するという魅力は否定できないが、われわれの強調は単なる美的快楽を超えている。
我々は、これらの強力なモデルが真の設計文脈で使われる可能性を検討することを目的とする。
この目標を追求するために,t2iモデルを"設計技術能力"と"設計アプリケーションシナリオ"の両方で評価するためのテストサンプルを組み込んだdesignbenchを開発した。
これら2つの次元はそれぞれ、さまざまな特定のデザインカテゴリによって支えられている。
我々はDALL-E 3をDesignBench上の他の主要なT2Iモデルとともに探索し、その結果、サイドバイサイド比較のための総合的なビジュアルギャラリーを得た。
designbench benchmarkingでは、画像-テキストアライメント、視覚的美学、デザイン創造性の基準に対して、designbench galleryで生成された画像のヒューマン評価を行う。
また,テキストレンダリング,レイアウト構成,カラー調和,3dデザイン,メディアスタイルなど,他の特殊設計機能についても検討した。
また,人間による評価に加えて,gpt-4vを用いた最初の自動画像生成エミュレータも導入する。
この評価器は、人間の判断に合致する評価を提供し、複製が容易でコスト効率が良い。
高解像度版はhttps://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdfで入手できる。
ダウンロード=
関連論文リスト
- Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping [55.98643055756135]
初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。
UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
論文 参考訳(メタデータ) (2024-10-21T17:39:49Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty [52.15933752463479]
ConceptMixはスケーラブルで、制御可能で、カスタマイズ可能なベンチマークです。
テキスト・ツー・イメージ(T2I)モデルの合成生成能力を自動的に評価する。
いくつかのモデル、特に開モデルの性能は k の増加とともに劇的に低下する。
論文 参考訳(メタデータ) (2024-08-26T15:08:12Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - I-Design: Personalized LLM Interior Designer [57.00412237555167]
I-Designはパーソナライズされたインテリアデザイナで、自然言語によるコミュニケーションを通じて設計目標の生成と視覚化を可能にする。
I-Designは、対話や論理的推論に従事する大きな言語モデルエージェントのチームから始まる。
最終的な設計は、既存のオブジェクトデータベースから資産を取り出し、統合することで、3Dで構築されます。
論文 参考訳(メタデータ) (2024-04-03T16:17:53Z) - HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image
Models [39.38477117444303]
HRS-Benchはテキスト・ツー・イメージ(T2I)モデルの評価ベンチマークである。
正確性、堅牢性、一般化、公正性、偏見の5つのカテゴリに分類される13のスキルを測定する。
ファッション、動物、輸送、食品、衣服など50のシナリオをカバーしている。
論文 参考訳(メタデータ) (2023-04-11T17:59:13Z) - Evaluation of Sketch-Based and Semantic-Based Modalities for Mockup
Generation [15.838427479984926]
デザインモックアップ(Design mockup)は、デザインのアイデアを視覚化し、テストするために欠かせない道具である。
手描きスケッチに基づいてモックアップを生成するための2つの異なるモックアップを提示・評価する。
その結果,スケッチベースの生成の方が直感的かつ表現的であり,セマンティックベースの生成AIは質と忠実度でより良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-03-22T16:47:36Z) - Convolutional Generation of Textured 3D Meshes [34.20939983046376]
単視点自然画像からの2次元監視のみを用いて,三角形メッシュとそれに伴う高分解能テクスチャマップを生成できるフレームワークを提案する。
我々の研究の重要な貢献は、メッシュとテクスチャを2D表現として符号化することであり、意味的に整合し、2D畳み込みGANで容易にモデル化できる。
本研究では,Pascal3D+カーとCUBにおいて,モデルがクラスラベル,属性,テキストに条件付けされている場合とで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-13T15:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。