論文の概要: A Creative Industry Image Generation Dataset Based on Captions
- arxiv url: http://arxiv.org/abs/2211.09035v1
- Date: Wed, 16 Nov 2022 16:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:50:28.304525
- Title: A Creative Industry Image Generation Dataset Based on Captions
- Title(参考訳): キャプションに基づく創造的産業用画像生成データセット
- Authors: Xiang Yuejia, Lv Chuanhao, Liu Qingdazhu, Yang Xiaocui, Liu Bo, Ju
Meizhi
- Abstract要約: プロンプトとスケッチを使用することは、制御可能性の実践的な解決策である。
これは、クリエイティブ産業の4つの重要な領域をカバーする最初のデータセットである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most image generation methods are difficult to precisely control the
properties of the generated images, such as structure, scale, shape, etc.,
which limits its large-scale application in creative industries such as
conceptual design and graphic design, and so on. Using the prompt and the
sketch is a practical solution for controllability. Existing datasets lack
either prompt or sketch and are not designed for the creative industry. Here is
the main contribution of our work. a) This is the first dataset that covers the
4 most important areas of creative industry domains and is labeled with prompt
and sketch. b) We provide multiple reference images in the test set and
fine-grained scores for each reference which are useful for measurement. c) We
apply two state-of-the-art models to our dataset and then find some
shortcomings, such as the prompt is more highly valued than the sketch.
- Abstract(参考訳): ほとんどの画像生成方法は、生成した画像の構造、スケール、形状などの特性を正確に制御することは困難であり、概念設計やグラフィックデザインなどの創造的産業における大規模な応用を制限している。
プロンプトとスケッチを使うことは、制御可能性の現実的な解決策である。
既存のデータセットにはプロンプトやスケッチがなく、クリエイティブな産業向けに設計されていない。
これが私たちの仕事の主な貢献です。
a) これは、クリエイティブ業界における4つの重要な領域をカバーする最初のデータセットで、プロンプトとスケッチでラベル付けされている。
b) テストセットに複数の参照画像と,測定に有用な基準毎の詳細なスコアを提供する。
c) 2つの最先端のモデルをデータセットに適用し、プロンプトがスケッチよりも高く評価されるなど、いくつかの欠点を見つけます。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - Alfie: Democratising RGBA Image Generation With No $$$ [33.334956022229846]
本稿では,事前学習した拡散変圧器モデルの推論時挙動を変化させ,RGBA図形の完全自動生成手法を提案する。
我々は、デザインプロジェクトや芸術シーンへのシームレスな統合のために、背景が容易に取り除かれるシャープな刈り取りを行なわずに、被験者全体の生成を強制する。
論文 参考訳(メタデータ) (2024-08-27T07:13:44Z) - Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - SketchTriplet: Self-Supervised Scenarized Sketch-Text-Image Triplet Generation [6.39528707908268]
シーンスケッチ用の大規模なペアデータセットは引き続き欠如している。
本稿では,既存のシーンスケッチに依存しないシーンスケッチ生成のための自己教師型手法を提案する。
シーンスケッチを中心にした大規模なデータセットをコントリビュートし、セマンティックに一貫した「テキスト・スケッチ・イメージ」三つ子を含む。
論文 参考訳(メタデータ) (2024-05-29T06:43:49Z) - CustomSketching: Sketch Concept Extraction for Sketch-based Image
Synthesis and Editing [21.12815542848095]
大規模なテキスト・ツー・イメージ(T2I)モデルのパーソナライズ技術により、ユーザーは参照画像から新しい概念を組み込むことができる。
既存の手法は主にテキスト記述に依存しており、カスタマイズされた画像の制御が制限されている。
スケッチを直感的で汎用的な表現として識別し,このような制御を容易にする。
論文 参考訳(メタデータ) (2024-02-27T15:52:59Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - CLIP-Art: Contrastive Pre-training for Fine-Grained Art Classification [7.6146285961466]
私たちは、CLIP(Contrastive Language- Image Pre-Training)を使用して、さまざまなアートイメージとテキスト記述ペアでニューラルネットワークをトレーニングする最初の方法の1つです。
本手法は,インスタンス検索と細粒度アートワーク属性認識という2つの課題を解決することを目的としている。
このベンチマークでは、自己スーパービジョンのみを使用して、競争結果を達成しました。
論文 参考訳(メタデータ) (2022-04-29T17:17:24Z) - Exploring Latent Dimensions of Crowd-sourced Creativity [0.02294014185517203]
私たちは、AIベースの最大のクリエイティビティプラットフォームであるArtbreederの開発を行っています。
このプラットフォーム上で生成された画像の潜在次元を探索し、画像を操作するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-13T19:24:52Z) - DoodleFormer: Creative Sketch Drawing with Transformers [68.18953603715514]
創造的スケッチ(Creative sketching)またはドゥーリング(Duodling)は、日常の視覚的物体の想像的かつ以前は目に見えない描写が描かれた表現的活動である。
本稿では,クリエイティビティスケッチ生成問題を粗いスケッチ合成に分解する,粗い2段階のフレームワークDoodleFormerを提案する。
生成した創作スケッチの多様性を確保するため,確率論的粗いスケッチデコーダを導入する。
論文 参考訳(メタデータ) (2021-12-06T18:59:59Z) - SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。
主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。
我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文 参考訳(メタデータ) (2020-03-05T14:54:10Z) - Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image
Retrieval [203.2520862597357]
きめ細かいスケッチベースの画像検索(FG-SBIR)は、ユーザのクエリのスケッチから特定の写真インスタンスを検索する問題に対処する。
これらの課題に対処するため、従来のFG-SBIRフレームワークを再構築する。
ユーザが絵を描き始めるとすぐに検索を開始できるオンザフライ設計を提案する。
論文 参考訳(メタデータ) (2020-02-24T15:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。