Fugu-MT 論文翻訳(概要): DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design

論文の概要: DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design

arxiv url: http://arxiv.org/abs/2310.15144v1
Date: Mon, 23 Oct 2023 17:48:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 18:04:14.655464
Title: DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design
Title（参考訳）: DesignBench: ビジュアルデザインを想像するためのDALL-E 3の探索とベンチマーク
Authors: Kevin Lin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Lijuan Wang
Abstract要約: ビジュアルデザインシナリオに適したテキスト・ツー・イメージ(T2I)生成ベンチマークであるDesignBenchを紹介する。 DesignBenchベンチマークでは、画像テキストアライメント、視覚美学、デザインクリエイティビティの基準に対して、生成された画像に対する人間による評価を行う。 GPT-4Vを用いた最初の自動画像生成評価器を提案する。
参考スコア（独自算出の注目度）: 124.56730013968543
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce DEsignBench, a text-to-image (T2I) generation benchmark tailored for visual design scenarios. Recent T2I models like DALL-E 3 and others, have demonstrated remarkable capabilities in generating photorealistic images that align closely with textual inputs. While the allure of creating visually captivating images is undeniable, our emphasis extends beyond mere aesthetic pleasure. We aim to investigate the potential of using these powerful models in authentic design contexts. In pursuit of this goal, we develop DEsignBench, which incorporates test samples designed to assess T2I models on both "design technical capability" and "design application scenario." Each of these two dimensions is supported by a diverse set of specific design categories. We explore DALL-E 3 together with other leading T2I models on DEsignBench, resulting in a comprehensive visual gallery for side-by-side comparisons. For DEsignBench benchmarking, we perform human evaluations on generated images in DEsignBench gallery, against the criteria of image-text alignment, visual aesthetic, and design creativity. Our evaluation also considers other specialized design capabilities, including text rendering, layout composition, color harmony, 3D design, and medium style. In addition to human evaluations, we introduce the first automatic image generation evaluator powered by GPT-4V. This evaluator provides ratings that align well with human judgments, while being easily replicable and cost-efficient. A high-resolution version is available at https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
Abstract（参考訳）: ビジュアルデザインシナリオに適したテキスト・ツー・イメージ(T2I)生成ベンチマークであるDesignBenchを紹介する。 DALL-E 3などの最近のT2Iモデルは、テキスト入力と密接に一致したフォトリアリスティックな画像を生成する際、顕著な能力を示した。視覚的に捕食される画像を作成するという魅力は否定できないが、われわれの強調は単なる美的快楽を超えている。我々は、これらの強力なモデルが真の設計文脈で使われる可能性を検討することを目的とする。この目標を追求するために,t2iモデルを"設計技術能力"と"設計アプリケーションシナリオ"の両方で評価するためのテストサンプルを組み込んだdesignbenchを開発した。これら2つの次元はそれぞれ、さまざまな特定のデザインカテゴリによって支えられている。我々はDALL-E 3をDesignBench上の他の主要なT2Iモデルとともに探索し、その結果、サイドバイサイド比較のための総合的なビジュアルギャラリーを得た。 designbench benchmarkingでは、画像-テキストアライメント、視覚的美学、デザイン創造性の基準に対して、designbench galleryで生成された画像のヒューマン評価を行う。また,テキストレンダリング,レイアウト構成,カラー調和,3dデザイン,メディアスタイルなど,他の特殊設計機能についても検討した。また,人間による評価に加えて,gpt-4vを用いた最初の自動画像生成エミュレータも導入する。この評価器は、人間の判断に合致する評価を提供し、複製が容易でコスト効率が良い。高解像度版はhttps://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdfで入手できる。ダウンロード=

関連論文リスト

Constantly Improving Image Models Need Constantly Improving Benchmarks [109.39018167487103]
本稿では,実際のモデル利用の証拠から直接ベンチマークを構築するためのフレームワークECHOを提案する。 GPT-4o Image Genにこのフレームワークを適用し,ソーシャルメディア投稿から収集した31,000以上のプロンプトのデータセットを構築した。
論文参考訳（メタデータ） (2025-10-16T17:59:30Z)
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。 OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-06-09T17:50:21Z)
TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。 TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。 T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文参考訳（メタデータ） (2025-06-02T18:44:07Z)
IA-T2I: Internet-Augmented Text-to-Image Generation [13.765327654914199]
現在のテキスト・ツー・イメージ(T2I)生成モデルは有望な結果をもたらすが、テキスト・プロンプトに暗示される知識が不確実なシナリオでは失敗する。本稿では,T2I モデルに参照画像を提供することで,そのような不確実な知識を明確化するための Internet-Augmented Text-to-image Generation (IA-T2I) フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T17:31:49Z)
Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image [53.09546752700792]
我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
論文参考訳（メタデータ） (2025-05-20T13:27:52Z)
Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching [16.33879333386818]
Inkspireはスケッチ駆動のツールで、デザイナーが製品デザインのコンセプトをプロトタイピングするのをサポートする。 InkspireとControlNetを比較した調査では、Inkspireがデザイナーにより多くのインスピレーションを与え、デザインのアイデアを探求するのを支援した。
論文参考訳（メタデータ） (2025-01-30T18:59:04Z)
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models [52.73820275861131]
テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。 FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-01-23T18:58:33Z)
Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping [55.98643055756135]
初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。 UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
論文参考訳（メタデータ） (2024-10-21T17:39:49Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty [52.15933752463479]
ConceptMixはスケーラブルで、制御可能で、カスタマイズ可能なベンチマークです。テキスト・ツー・イメージ(T2I)モデルの合成生成能力を自動的に評価する。いくつかのモデル、特に開モデルの性能は k の増加とともに劇的に低下する。
論文参考訳（メタデータ） (2024-08-26T15:08:12Z)
PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文参考訳（メタデータ） (2024-06-17T17:49:01Z)
I-Design: Personalized LLM Interior Designer [57.00412237555167]
I-Designはパーソナライズされたインテリアデザイナで、自然言語によるコミュニケーションを通じて設計目標の生成と視覚化を可能にする。 I-Designは、対話や論理的推論に従事する大きな言語モデルエージェントのチームから始まる。最終的な設計は、既存のオブジェクトデータベースから資産を取り出し、統合することで、3Dで構築されます。
論文参考訳（メタデータ） (2024-04-03T16:17:53Z)
HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image Models [39.38477117444303]
HRS-Benchはテキスト・ツー・イメージ(T2I)モデルの評価ベンチマークである。正確性、堅牢性、一般化、公正性、偏見の5つのカテゴリに分類される13のスキルを測定する。ファッション、動物、輸送、食品、衣服など50のシナリオをカバーしている。
論文参考訳（メタデータ） (2023-04-11T17:59:13Z)
Evaluation of Sketch-Based and Semantic-Based Modalities for Mockup Generation [15.838427479984926]
デザインモックアップ(Design mockup)は、デザインのアイデアを視覚化し、テストするために欠かせない道具である。手描きスケッチに基づいてモックアップを生成するための2つの異なるモックアップを提示・評価する。その結果,スケッチベースの生成の方が直感的かつ表現的であり,セマンティックベースの生成AIは質と忠実度でより良い結果が得られることがわかった。
論文参考訳（メタデータ） (2023-03-22T16:47:36Z)
Convolutional Generation of Textured 3D Meshes [34.20939983046376]
単視点自然画像からの2次元監視のみを用いて,三角形メッシュとそれに伴う高分解能テクスチャマップを生成できるフレームワークを提案する。我々の研究の重要な貢献は、メッシュとテクスチャを2D表現として符号化することであり、意味的に整合し、2D畳み込みGANで容易にモデル化できる。本研究では,Pascal3D+カーとCUBにおいて,モデルがクラスラベル,属性,テキストに条件付けされている場合とで,本手法の有効性を実証する。
論文参考訳（メタデータ） (2020-06-13T15:23:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。