論文の概要: IDEA-Bench: How Far are Generative Models from Professional Designing?
- arxiv url: http://arxiv.org/abs/2412.11767v1
- Date: Mon, 16 Dec 2024 13:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:48.694017
- Title: IDEA-Bench: How Far are Generative Models from Professional Designing?
- Title(参考訳): IDEA-Bench: プロフェッショナル設計から生成モデルまで、どれくらいですか?
- Authors: Chen Liang, Lianghua Huang, Jingwu Fang, Huanzhang Dou, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Junge Zhang, Xin Zhao, Yu Liu,
- Abstract要約: 実世界の100のタスクを含むベンチマークであるIDEA-Benchを紹介する。
これには、レンダリング、ビジュアルエフェクト、ストーリーボード、絵本、フォント、スタイルベース、アイデンティティ保存生成が含まれる。
最高のパフォーマンスモデルでさえ、IDEA-Benchで22.48しか達成せず、最高の汎用モデルは6.81しか達成していない。
- 参考スコア(独自算出の注目度): 34.00716542613326
- License:
- Abstract: Real-world design tasks - such as picture book creation, film storyboard development using character sets, photo retouching, visual effects, and font transfer - are highly diverse and complex, requiring deep interpretation and extraction of various elements from instructions, descriptions, and reference images. The resulting images often implicitly capture key features from references or user inputs, making it challenging to develop models that can effectively address such varied tasks. While existing visual generative models can produce high-quality images based on prompts, they face significant limitations in professional design scenarios that involve varied forms and multiple inputs and outputs, even when enhanced with adapters like ControlNets and LoRAs. To address this, we introduce IDEA-Bench, a comprehensive benchmark encompassing 100 real-world design tasks, including rendering, visual effects, storyboarding, picture books, fonts, style-based, and identity-preserving generation, with 275 test cases to thoroughly evaluate a model's general-purpose generation capabilities. Notably, even the best-performing model only achieves 22.48 on IDEA-Bench, while the best general-purpose model only achieves 6.81. We provide a detailed analysis of these results, highlighting the inherent challenges and providing actionable directions for improvement. Additionally, we provide a subset of 18 representative tasks equipped with multimodal large language model (MLLM)-based auto-evaluation techniques to facilitate rapid model development and comparison. We releases the benchmark data, evaluation toolkits, and an online leaderboard at https://github.com/ali-vilab/IDEA-Bench, aiming to drive the advancement of generative models toward more versatile and applicable intelligent design systems.
- Abstract(参考訳): 絵本の作成、キャラクターセットを使ったフィルムストーリーボードの開発、フォトリタッチ、視覚効果、フォント転送といった実際のデザインタスクは、非常に多様で複雑であり、指示、記述、参照画像から様々な要素を深く解釈し抽出する必要がある。
結果のイメージは、しばしば参照やユーザ入力から重要な特徴を暗黙的にキャプチャするので、このような多様なタスクに効果的に対処できるモデルを開発するのは難しい。
既存のビジュアル生成モデルはプロンプトに基づいて高品質な画像を生成することができるが、ControlNetsやLoRAsのようなアダプタで拡張された場合でも、様々なフォームと複数の入力と出力を含むプロの設計シナリオにおいて、重大な制限に直面している。
この問題を解決するために、我々は、レンダリング、視覚効果、ストーリーボード、絵本、フォント、スタイルベース、アイデンティティ保存生成を含む100の現実世界のデザインタスクを含む総合的なベンチマークであるIDEA-Benchを紹介し、モデルの汎用生成能力を徹底的に評価するための275のテストケースを紹介した。
特に、最高のパフォーマンスモデルでさえ、IDEA-Benchで22.48しか達成せず、最高の汎用モデルは6.81しか達成していない。
これらの結果を詳細に分析し、固有の課題を強調し、改善のための実行可能な方向性を提供します。
さらに,マルチモーダル大規模言語モデル(MLLM)に基づく自動評価技術を用いて,高速なモデル開発と比較を容易にする18種類の代表タスクのサブセットを提供する。
ベンチマークデータ、評価ツールキット、オンラインリーダーボードをhttps://github.com/ali-vilab/IDEA-Benchでリリースし、より汎用的で適用可能なインテリジェントデザインシステムに向けた生成モデルの進歩を促進することを目的としている。
関連論文リスト
- EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - You Only Submit One Image to Find the Most Suitable Generative Model [48.67303250592189]
我々は生成モデル同定(GMI)と呼ばれる新しい設定を提案する。
GMIは、ユーザの要求に対して最も適切な生成モデルを効率的に特定できるようにすることを目的としている。
論文 参考訳(メタデータ) (2024-12-16T14:46:57Z) - AnySynth: Harnessing the Power of Image Synthetic Data Generation for Generalized Vision-Language Tasks [23.041812897803034]
任意の種類の合成データを生成可能な統合フレームワークであるAny Synthを提案する。
我々は、Few-shot Object Detection、クロスドメインオブジェクト検出、Zero-shot Image Retrieval、Multi-modal Image Perception and Groundingなど、さまざまなタスクでフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2024-11-24T04:49:07Z) - ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。
まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。
次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:56:27Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。