論文の概要: Diverse Multimedia Layout Generation with Multi Choice Learning
- arxiv url: http://arxiv.org/abs/2301.06629v1
- Date: Mon, 16 Jan 2023 22:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:14:06.972562
- Title: Diverse Multimedia Layout Generation with Multi Choice Learning
- Title(参考訳): マルチチョイス学習による多様なマルチメディアレイアウト生成
- Authors: David D. Nguyen, Surya Nepal, Salil S. Kanhere
- Abstract要約: 通常の予測タスクとは対照的に、ユーザの好みに依存する許容範囲のレイアウトが存在する。
既存の機械学習モデルは、レイアウトを単一の選択予測問題として扱う。
自動回帰ニューラルネットワークアーキテクチャであるLayoutMCLを提案する。
- 参考スコア(独自算出の注目度): 27.542940346258916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Designing visually appealing layouts for multimedia documents containing
text, graphs and images requires a form of creative intelligence. Modelling the
generation of layouts has recently gained attention due to its importance in
aesthetics and communication style. In contrast to standard prediction tasks,
there are a range of acceptable layouts which depend on user preferences. For
example, a poster designer may prefer logos on the top-left while another
prefers logos on the bottom-right. Both are correct choices yet existing
machine learning models treat layouts as a single choice prediction problem. In
such situations, these models would simply average over all possible choices
given the same input forming a degenerate sample. In the above example, this
would form an unacceptable layout with a logo in the centre. In this paper, we
present an auto-regressive neural network architecture, called LayoutMCL, that
uses multi-choice prediction and winner-takes-all loss to effectively stabilise
layout generation. LayoutMCL avoids the averaging problem by using multiple
predictors to learn a range of possible options for each layout object. This
enables LayoutMCL to generate multiple and diverse layouts from a single input
which is in contrast with existing approaches which yield similar layouts with
minor variations. Through quantitative benchmarks on real data (magazine,
document and mobile app layouts), we demonstrate that LayoutMCL reduces
Fr\'echet Inception Distance (FID) by 83-98% and generates significantly more
diversity in comparison to existing approaches.
- Abstract(参考訳): テキスト、グラフ、画像を含むマルチメディア文書の視覚的に魅力的なレイアウトを設計するには、創造的なインテリジェンスが必要である。
レイアウト生成のモデル化は最近、美学とコミュニケーションスタイルの重要性から注目を集めている。
通常の予測タスクとは対照的に、ユーザの好みに依存する許容範囲のレイアウトが存在する。
例えば、ポスターデザイナーは左上のロゴを好み、右下のロゴを好みます。
どちらも正しい選択だが、既存の機械学習モデルはレイアウトを単一の選択予測問題として扱う。
このような状況下では、これらのモデルは、縮退したサンプルを形成する同じ入力を与えられた全ての可能な選択を単純に平均化する。
上記の例では、中央にロゴが付いた受け入れがたいレイアウトになっている。
本稿では,レイアウト生成を効果的に安定化させるために,複数選択予測と入賞者全損失を用いた自動回帰ニューラルネットワークアーキテクチャLayoutMCLを提案する。
LayoutMCLは、複数の予測子を使用して、レイアウトオブジェクトごとに可能なオプションの範囲を学習することで平均化の問題を回避する。
これにより、layoutmclは単一の入力から複数の多様なレイアウトを生成することができる。
実データ(マガジン、ドキュメント、モバイルアプリのレイアウト)の定量的なベンチマークを通じて、LayoutMCLはFr\'echet Inception Distance (FID)を83~98%削減し、既存のアプローチと比較して大幅に多様性を増すことを示した。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - LayoutFlow: Flow Matching for Layout Generation [23.045325684880957]
高品質なレイアウトを生成することができる効率的なフローベースモデルを提案する。
提案手法は,最終予測に到達するまで,初期サンプルの要素を徐々に移動し,流れていくことを学習する。
論文 参考訳(メタデータ) (2024-03-27T01:40:21Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDiffusion: Improving Graphic Layout Generation by Discrete
Diffusion Probabilistic Models [50.73105631853759]
レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。
このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。
これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-21T04:41:02Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - BLT: Bidirectional Layout Transformer for Controllable Layout Generation [27.239276265955954]
条件付きレイアウト生成のための双方向レイアウト変換器であるBLTを導入する。
提案手法は, 各種忠実度指標を用いた複数のベンチマークで検証する。
以上の結果から,最新のレイアウトトランスモデルに対する2つの重要な進歩が示された。
論文 参考訳(メタデータ) (2021-12-09T18:49:28Z) - Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。
提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。
実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-02T13:04:11Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。