論文の概要: Alfie: Democratising RGBA Image Generation With No $$$
- arxiv url: http://arxiv.org/abs/2408.14826v1
- Date: Tue, 27 Aug 2024 07:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:45:05.221576
- Title: Alfie: Democratising RGBA Image Generation With No $$$
- Title(参考訳): Alfie:RGBA画像生成を$$$なしで民主化
- Authors: Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara,
- Abstract要約: 本稿では,事前学習した拡散変圧器モデルの推論時挙動を変化させ,RGBA図形の完全自動生成手法を提案する。
我々は、デザインプロジェクトや芸術シーンへのシームレスな統合のために、背景が容易に取り除かれるシャープな刈り取りを行なわずに、被験者全体の生成を強制する。
- 参考スコア(独自算出の注目度): 33.334956022229846
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Designs and artworks are ubiquitous across various creative fields, requiring graphic design skills and dedicated software to create compositions that include many graphical elements, such as logos, icons, symbols, and art scenes, which are integral to visual storytelling. Automating the generation of such visual elements improves graphic designers' productivity, democratizes and innovates the creative industry, and helps generate more realistic synthetic data for related tasks. These illustration elements are mostly RGBA images with irregular shapes and cutouts, facilitating blending and scene composition. However, most image generation models are incapable of generating such images and achieving this capability requires expensive computational resources, specific training recipes, or post-processing solutions. In this work, we propose a fully-automated approach for obtaining RGBA illustrations by modifying the inference-time behavior of a pre-trained Diffusion Transformer model, exploiting the prompt-guided controllability and visual quality offered by such models with no additional computational cost. We force the generation of entire subjects without sharp croppings, whose background is easily removed for seamless integration into design projects or artistic scenes. We show with a user study that, in most cases, users prefer our solution over generating and then matting an image, and we show that our generated illustrations yield good results when used as inputs for composite scene generation pipelines. We release the code at https://github.com/aimagelab/Alfie.
- Abstract(参考訳): デザインとアートワークは様々なクリエイティブ分野にまたがっており、ロゴ、アイコン、シンボル、アートシーンなど、視覚的なストーリーテリングに不可欠な多くのグラフィカル要素を含む構成を作成するには、グラフィックデザインスキルと専用のソフトウェアが必要である。
このようなビジュアル要素の生成を自動化することでグラフィックデザイナーの生産性が向上し、クリエイティブ産業を民主化し革新し、関連するタスクのためのよりリアルな合成データを生成する。
これらの図形要素は主に不規則な形状と切り欠きを持つRGBA画像であり、ブレンディングやシーン構成を容易にしている。
しかし、ほとんどの画像生成モデルはそのような画像を生成することができないため、この能力を達成するには高価な計算資源、特定のトレーニングレシピ、あるいは後処理ソリューションが必要である。
本研究では,事前学習した拡散変圧器モデルの推定時間挙動を修正してRGBA図形を得るための完全自動手法を提案する。
我々は、デザインプロジェクトや芸術シーンへのシームレスな統合のために、背景が容易に取り除かれるシャープな刈り取りを行なわずに、被験者全体の生成を強制する。
ユーザスタディでは、ほとんどの場合、ユーザは画像の生成とマッチングよりもソリューションを好み、生成したイラストは複合シーン生成パイプラインの入力として使用すると良い結果が得られることを示す。
コードをhttps://github.com/aimagelab/Alfie.comでリリースします。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - AltCanvas: A Tile-Based Image Editor with Generative AI for Blind or Visually Impaired People [4.41462357579624]
視覚障害のある人は、しばしば視覚要素に大きく依存するコンテンツを作成するのに苦労する。
イメージを並べて構築する既存の描画ツールは、数学のような単純なタスクには適しているが、表現力のあるアートワークには向いていない。
我々の研究は、ジェネレーティブAIと建設的なアプローチを統合し、ユーザーが制御と編集能力を増強する。
論文 参考訳(メタデータ) (2024-08-05T01:47:36Z) - BlenderAlchemy: Editing 3D Graphics with Vision-Language Models [4.852796482609347]
ビジョンベースの編集生成器と状態評価器が協力して、目標を達成するための正しいアクションのシーケンスを見つける。
人間のデザインプロセスにおける視覚的想像力の役割に触発されて、視覚言語モデルの視覚的推論能力を「想像された」参照画像で補う。
論文 参考訳(メタデータ) (2024-04-26T19:37:13Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - CLIP-CLOP: CLIP-Guided Collage and Photomontage [16.460669517251084]
我々はコラージュを生成するために勾配に基づく発電機を設計する。
人間のアーティストはイメージパッチのライブラリをキュレートし、画像構成全体を(プロンプトで)記述する必要がある。
われわれは高解像度コラージュの美的可能性を探究し、オープンソースのGoogle Colabを芸術ツールとして提供する。
論文 参考訳(メタデータ) (2022-05-06T11:33:49Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - State of the Art on Neural Rendering [141.22760314536438]
我々は,古典的コンピュータグラフィックス技術と深層生成モデルを組み合わせることで,制御可能かつフォトリアリスティックな出力を得るアプローチに焦点をあてる。
本報告は,新しいビュー合成,セマンティック写真操作,顔と身体の再現,リライティング,自由視点ビデオ,バーチャルおよび拡張現実テレプレゼンスのためのフォトリアリスティックアバターの作成など,記述されたアルゴリズムの多くの重要なユースケースに焦点をあてる。
論文 参考訳(メタデータ) (2020-04-08T04:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。