論文の概要: DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual
Design
- arxiv url: http://arxiv.org/abs/2310.15144v1
- Date: Mon, 23 Oct 2023 17:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:04:14.655464
- Title: DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual
Design
- Title(参考訳): DesignBench: ビジュアルデザインを想像するためのDALL-E 3の探索とベンチマーク
- Authors: Kevin Lin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Lijuan Wang
- Abstract要約: ビジュアルデザインシナリオに適したテキスト・ツー・イメージ(T2I)生成ベンチマークであるDesignBenchを紹介する。
DesignBenchベンチマークでは、画像テキストアライメント、視覚美学、デザインクリエイティビティの基準に対して、生成された画像に対する人間による評価を行う。
GPT-4Vを用いた最初の自動画像生成評価器を提案する。
- 参考スコア(独自算出の注目度): 124.56730013968543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DEsignBench, a text-to-image (T2I) generation benchmark tailored
for visual design scenarios. Recent T2I models like DALL-E 3 and others, have
demonstrated remarkable capabilities in generating photorealistic images that
align closely with textual inputs. While the allure of creating visually
captivating images is undeniable, our emphasis extends beyond mere aesthetic
pleasure. We aim to investigate the potential of using these powerful models in
authentic design contexts. In pursuit of this goal, we develop DEsignBench,
which incorporates test samples designed to assess T2I models on both "design
technical capability" and "design application scenario." Each of these two
dimensions is supported by a diverse set of specific design categories. We
explore DALL-E 3 together with other leading T2I models on DEsignBench,
resulting in a comprehensive visual gallery for side-by-side comparisons. For
DEsignBench benchmarking, we perform human evaluations on generated images in
DEsignBench gallery, against the criteria of image-text alignment, visual
aesthetic, and design creativity. Our evaluation also considers other
specialized design capabilities, including text rendering, layout composition,
color harmony, 3D design, and medium style. In addition to human evaluations,
we introduce the first automatic image generation evaluator powered by GPT-4V.
This evaluator provides ratings that align well with human judgments, while
being easily replicable and cost-efficient. A high-resolution version is
available at
https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
- Abstract(参考訳): ビジュアルデザインシナリオに適したテキスト・ツー・イメージ(T2I)生成ベンチマークであるDesignBenchを紹介する。
DALL-E 3などの最近のT2Iモデルは、テキスト入力と密接に一致したフォトリアリスティックな画像を生成する際、顕著な能力を示した。
視覚的に捕食される画像を作成するという魅力は否定できないが、われわれの強調は単なる美的快楽を超えている。
我々は、これらの強力なモデルが真の設計文脈で使われる可能性を検討することを目的とする。
この目標を追求するために,t2iモデルを"設計技術能力"と"設計アプリケーションシナリオ"の両方で評価するためのテストサンプルを組み込んだdesignbenchを開発した。
これら2つの次元はそれぞれ、さまざまな特定のデザインカテゴリによって支えられている。
我々はDALL-E 3をDesignBench上の他の主要なT2Iモデルとともに探索し、その結果、サイドバイサイド比較のための総合的なビジュアルギャラリーを得た。
designbench benchmarkingでは、画像-テキストアライメント、視覚的美学、デザイン創造性の基準に対して、designbench galleryで生成された画像のヒューマン評価を行う。
また,テキストレンダリング,レイアウト構成,カラー調和,3dデザイン,メディアスタイルなど,他の特殊設計機能についても検討した。
また,人間による評価に加えて,gpt-4vを用いた最初の自動画像生成エミュレータも導入する。
この評価器は、人間の判断に合致する評価を提供し、複製が容易でコスト効率が良い。
高解像度版はhttps://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdfで入手できる。
ダウンロード=
関連論文リスト
- DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination [140.1641573781066]
ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。
そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。
したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
論文 参考訳(メタデータ) (2023-11-27T01:24:31Z) - Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic
Image Design and Generation [121.42924593374127]
本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己修正システムであるIdean to Image'を紹介し,画像の自動設計と生成を行う。
大規模マルチモーダルモデル(LMM)に基づくシステムでは,類似のマルチモーダル自己抑止能力が得られるかを検討する。
論文 参考訳(メタデータ) (2023-10-12T17:34:20Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image
Models [39.38477117444303]
HRS-Benchはテキスト・ツー・イメージ(T2I)モデルの評価ベンチマークである。
正確性、堅牢性、一般化、公正性、偏見の5つのカテゴリに分類される13のスキルを測定する。
ファッション、動物、輸送、食品、衣服など50のシナリオをカバーしている。
論文 参考訳(メタデータ) (2023-04-11T17:59:13Z) - Evaluation of Sketch-Based and Semantic-Based Modalities for Mockup
Generation [15.838427479984926]
デザインモックアップ(Design mockup)は、デザインのアイデアを視覚化し、テストするために欠かせない道具である。
手描きスケッチに基づいてモックアップを生成するための2つの異なるモックアップを提示・評価する。
その結果,スケッチベースの生成の方が直感的かつ表現的であり,セマンティックベースの生成AIは質と忠実度でより良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-03-22T16:47:36Z) - Hand-Object Interaction Image Generation [135.87707468156057]
この仕事は、新しいタスク、すなわち手動オブジェクトのインタラクション画像生成に特化している。
与えられた手、オブジェクト、それらの相互作用状態の下で、条件付きハンドオブジェクト画像を生成することを目的としている。
このタスクは、AR/VRゲームやオンラインショッピングなど、多くの潜在的なアプリケーションシナリオにおいて、挑戦的で研究に値するものだ。
論文 参考訳(メタデータ) (2022-11-28T18:59:57Z) - Fit2Form: 3D Generative Model for Robot Gripper Form Design [17.77153086504066]
ロボットのエンドエフェクターの3次元形状は、その機能と全体的な性能を決定する上で重要な役割を果たす。
多くの産業アプリケーションは、システムの堅牢性と正確性を保証するためにタスク固有のグリッパー設計に依存している。
この研究の目的は、機械学習アルゴリズムを使用してタスク固有のグリップパー指の設計を自動化することである。
論文 参考訳(メタデータ) (2020-11-12T17:09:36Z) - Convolutional Generation of Textured 3D Meshes [34.20939983046376]
単視点自然画像からの2次元監視のみを用いて,三角形メッシュとそれに伴う高分解能テクスチャマップを生成できるフレームワークを提案する。
我々の研究の重要な貢献は、メッシュとテクスチャを2D表現として符号化することであり、意味的に整合し、2D畳み込みGANで容易にモデル化できる。
本研究では,Pascal3D+カーとCUBにおいて,モデルがクラスラベル,属性,テキストに条件付けされている場合とで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-13T15:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。