論文の概要: AesthetiQ: Enhancing Graphic Layout Design via Aesthetic-Aware Preference Alignment of Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.00591v1
- Date: Sat, 01 Mar 2025 19:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:02.609964
- Title: AesthetiQ: Enhancing Graphic Layout Design via Aesthetic-Aware Preference Alignment of Multi-modal Large Language Models
- Title(参考訳): AesthetiQ: マルチモーダル大言語モデルの審美的選好アライメントによるグラフィカルレイアウト設計の強化
- Authors: Sohan Patnaik, Rishabh Jain, Balaji Krishnamurthy, Mausoom Sarkar,
- Abstract要約: Aesthetic-Aware Preference Alignment (AAPA)はレイアウトインタフェースのためのMLLM(Multi-modal Large Language Model)をトレーニングする新しいテクニックである。
高品質なレイアウト上でのトレーニングを確実にするための,レイアウト品質予測プロトコルを利用したデータフィルタリングプロトコルを提案する。
我々は、CrelloとWebuiの2つの挑戦的なベンチマークに対して、我々のアプローチの有効性を実証し、17%、現在のState-of-The-Artメソッドよりも16の改善を示した。
- 参考スコア(独自算出の注目度): 15.483561230992768
- License:
- Abstract: Visual layouts are essential in graphic design fields such as advertising, posters, and web interfaces. The application of generative models for content-aware layout generation has recently gained traction. However, these models fail to understand the contextual aesthetic requirements of layout design and do not align with human-like preferences, primarily treating it as a prediction task without considering the final rendered output. To overcome these problems, we offer Aesthetic-Aware Preference Alignment(AAPA), a novel technique to train a Multi-modal Large Language Model (MLLM) for layout prediction that uses MLLM's aesthetic preferences for Direct Preference Optimization over graphic layouts. We propose a data filtering protocol utilizing our layout-quality heuristics for AAPA to ensure training happens on high-quality layouts. Additionally, we introduce a novel evaluation metric that uses another MLLM to compute the win rate of the generated layout against the ground-truth layout based on aesthetics criteria. We also demonstrate the applicability of AAPA for MLLMs of varying scales (1B to 8B parameters) and LLM families (Qwen, Phi, InternLM). By conducting thorough qualitative and quantitative analyses, we verify the efficacy of our approach on two challenging benchmarks - Crello and Webui, showcasing 17%, and 16 improvement over current State-of-The-Art methods, thereby highlighting the potential of MLLMs in aesthetic-aware layout generation.
- Abstract(参考訳): ビジュアルレイアウトは、広告、ポスター、ウェブインターフェースといったグラフィックデザイン分野において不可欠である。
近年,コンテンツ認識レイアウト生成における生成モデルの適用が注目されている。
しかし、これらのモデルはレイアウト設計の文脈的美的要件を理解しず、人間の好みと一致せず、主に最終的な出力を考慮せずに予測タスクとして扱う。
これらの問題を解決するために,MLLMの美的嗜好を用いたレイアウト予測のためのマルチモーダル大言語モデル(MLLM)を学習する新しい手法であるAesthetic-Aware Preference Alignment(AAPA)を提案する。
我々は,AAPAのレイアウト品質のヒューリスティックを利用して,高品質なレイアウトでトレーニングを行うためのデータフィルタリングプロトコルを提案する。
さらに,他のMLLMを用いた新たな評価基準を導入し,審美基準に基づき,生成したレイアウトの接地構造に対する勝利率を算出する。
また,異なるスケール(1Bから8Bパラメータ)のMLLMとLLMファミリー(Qwen,Phi,InternLM)に対するAAPAの適用性を示した。
定性的かつ定量的な分析を徹底的に行うことにより, Crello と Webui の2つの挑戦的ベンチマークにおいて, 現在の State-of-The-Art 法よりも17%, 16の改善が見られ, 美的レイアウト生成における MLLM の可能性を強調した。
関連論文リスト
- FlairGPT: Repurposing LLMs for Interior Designs [26.07841568311428]
大規模言語モデル (LLM) が内部設計に直接活用できるかどうかを検討する。
LLMを体系的に探索することにより、関連する制約とともにオブジェクトのリストを確実に生成できる。
この情報を設計レイアウトグラフに変換し、オフザシェルフ制約最適化設定を用いて解決する。
論文 参考訳(メタデータ) (2025-01-08T18:01:49Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Design Editing for Offline Model-based Optimization [18.701760631151316]
オフラインモデルベース最適化(MBO)は、デザインとスコアのオフラインデータセットのみを使用してブラックボックスの目的関数を最大化することを目的としている。
一般的なアプローチは、既存の設計とその対応するスコアを使用して代理モデルをトレーニングし、その後、代理モデルに関する勾配ベースの更新を通じて新しい設計を生成することである。
この方法は、サロゲートモデルが見当たらない設計の高得点を誤って予測できるという、アウト・オブ・ディストリビューションの問題に悩まされる。
過度に最適化された設計を校正する前に拡散を利用したオフラインモデルベース最適化のための新しい設計編集手法(DEMO)を提案する。
論文 参考訳(メタデータ) (2024-05-22T20:00:19Z) - Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models [81.6240188672294]
グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し、視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
本手法は,非専門職の設計プロセスを単純化するだけでなく,数ショット GPT-4V モデルの性能を上回り,mIoU は Crello で 12% 向上する。
論文 参考訳(メタデータ) (2024-04-23T17:58:33Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。