論文の概要: Towards Design Compositing
- arxiv url: http://arxiv.org/abs/2604.14605v2
- Date: Fri, 17 Apr 2026 04:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.391378
- Title: Towards Design Compositing
- Title(参考訳): デザインコンポジションに向けて
- Authors: Abhinav Mahajan, Abhikhya Tripathy, Sudeeksha Reddy Pala, Vaibhav Methi, K J Joseph, Balaji Vasan Srinivasan,
- Abstract要約: GISTは、レイアウト予測とタイポグラフィ生成の間に位置する、トレーニング不要でアイデンティティを保存する画像合成装置である。
GISTとLaDeCoとDesign-o-meterの2つの異なる既存手法を統合することでこれを実証する。
- 参考スコア(独自算出の注目度): 11.540254844863512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Graphic design creation involves harmoniously assembling multimodal components such as images, text, logos, and other visual assets collected from diverse sources, into a visually-appealing and cohesive design. Recent methods have largely focused on layout prediction or complementary element generation, while retaining input elements exactly, implicitly assuming that provided components are already stylistically harmonious. In practice, inputs often come from disparate sources and exhibit visual mismatch, making this assumption limiting. We argue that identity-preserving stylization and compositing of input elements is a critical missing ingredient for truly harmonized components-to-design pipelines. To this end, we propose GIST, a training-free, identity-preserving image compositor that sits between layout prediction and typography generation, and can be plugged into any existing components-to-design or design-refining pipeline without modification. We demonstrate this by integrating GIST with two substantially different existing methods, LaDeCo and Design-o-meter. GIST shows significant improvements in visual harmony and aesthetic quality across both pipelines, as validated by LLaVA-OV and GPT-4V on aspect-wise ratings and pairwise preference over naive pasting. Project Page: abhinav-mahajan10.github.io/GIST/.
- Abstract(参考訳): グラフィックデザインの創造は、画像、テキスト、ロゴ、および様々なソースから収集されたその他の視覚的資産などのマルチモーダルコンポーネントを、視覚的に適応し、結合的なデザインに調和して組み立てることを含む。
最近の手法では、レイアウトの予測や補完的な要素の生成に重点を置いているが、入力要素を正確に保持することは、提供されたコンポーネントがすでにスタイル的に調和していると暗黙的に仮定している。
実際には、入力はしばしば異なるソースから得られ、視覚的ミスマッチを示すため、この仮定は制限される。
我々は、入力要素のID保存型スタイリゼーションと合成が、真に調和したコンポーネント・ツー・デザイン・パイプラインにとって重要な欠落要素であると主張している。
この目的のために、レイアウト予測とタイポグラフィ生成の間に位置する、トレーニング不要でアイデンティティを保存する画像合成装置であるGISTを提案し、変更することなく既存のコンポーネント・ツー・デザイナ・デザイン・リファインティング・パイプラインにプラグインできる。
GISTとLaDeCoとDesign-o-meterの2つの異なる既存手法を統合することでこれを実証する。
GISTは両パイプライン間の視覚調和と審美的品質を著しく改善し、LLaVA-OVとGPT-4Vがアスペクトワイド評価とニーブペーストよりもペアワイド選好で検証した。
Project Page: abhinav-mahajan10.github.io/GIST/
関連論文リスト
- V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising [65.5867130156805]
統合JTフレームワークにおける視覚的コデノゲーションの体系的研究であるV-Coについて述べる。
本研究は,視覚的コデノジングを効果的に行うための4つの重要な要素を明らかにする。
V-Coは、基礎となる画素空間拡散ベースラインと強い前の画素拡散法より優れている。
論文 参考訳(メタデータ) (2026-03-17T17:01:54Z) - DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation [35.535141410383325]
DOneは、要素レンダリングから構造理解を分離するエンドツーエンドのフレームワークである。
HiFi2Codeは、既存のデータセットよりもはるかに高いレイアウトの複雑さを特徴とするベンチマークである。
人間の評価は、高い視力で生産性が3倍向上することを確認する。
論文 参考訳(メタデータ) (2026-03-12T03:47:24Z) - ReLayout: Integrating Relation Reasoning for Content-aware Layout Generation with Multi-modal Large Language Models [7.288330685534444]
我々はReを導入する。ReはRelation-CoTを利用してより合理的で一貫性のあるレイアウトを生成する新しい手法である。
具体的には、要素間の領域、完全性、マージンといった明示的な関係定義を導入することで、レイアウトアノテーションを強化する。
また、3次元にわたるレイアウトプロトタイプ機能を定義し、異なるレイアウトスタイルを定量化するレイアウトプロトタイプサンプルも導入する。
論文 参考訳(メタデータ) (2025-07-08T01:13:43Z) - Piece it Together: Part-Based Concepting with IP-Priors [52.01640707131325]
ユーザが提供するビジュアルコンポーネントの一部集合をシームレスにコヒーレントな構成に統合する生成フレームワークを導入する。
提案手法は,IP-Adapter+から抽出した,強力で過小評価された表現空間に基づいている。
また、与えられたタスクに対するIP-Adapter+のプロンプトアテンデンスを大幅に改善するLoRAベースの微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-03-13T13:46:10Z) - Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model [3.8748565070264753]
本稿では,レイアウトの調和を考慮し,レイアウト内の不調和要素を識別できる学習ベースモジュールを提案する。
このモジュールは、様々な最先端DDMと組み合わせてレイアウト生成性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-09-25T07:24:43Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。