論文の概要: Diverse Multimedia Layout Generation with Multi Choice Learning
- arxiv url: http://arxiv.org/abs/2301.06629v1
- Date: Mon, 16 Jan 2023 22:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:14:06.972562
- Title: Diverse Multimedia Layout Generation with Multi Choice Learning
- Title(参考訳): マルチチョイス学習による多様なマルチメディアレイアウト生成
- Authors: David D. Nguyen, Surya Nepal, Salil S. Kanhere
- Abstract要約: 通常の予測タスクとは対照的に、ユーザの好みに依存する許容範囲のレイアウトが存在する。
既存の機械学習モデルは、レイアウトを単一の選択予測問題として扱う。
自動回帰ニューラルネットワークアーキテクチャであるLayoutMCLを提案する。
- 参考スコア(独自算出の注目度): 27.542940346258916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Designing visually appealing layouts for multimedia documents containing
text, graphs and images requires a form of creative intelligence. Modelling the
generation of layouts has recently gained attention due to its importance in
aesthetics and communication style. In contrast to standard prediction tasks,
there are a range of acceptable layouts which depend on user preferences. For
example, a poster designer may prefer logos on the top-left while another
prefers logos on the bottom-right. Both are correct choices yet existing
machine learning models treat layouts as a single choice prediction problem. In
such situations, these models would simply average over all possible choices
given the same input forming a degenerate sample. In the above example, this
would form an unacceptable layout with a logo in the centre. In this paper, we
present an auto-regressive neural network architecture, called LayoutMCL, that
uses multi-choice prediction and winner-takes-all loss to effectively stabilise
layout generation. LayoutMCL avoids the averaging problem by using multiple
predictors to learn a range of possible options for each layout object. This
enables LayoutMCL to generate multiple and diverse layouts from a single input
which is in contrast with existing approaches which yield similar layouts with
minor variations. Through quantitative benchmarks on real data (magazine,
document and mobile app layouts), we demonstrate that LayoutMCL reduces
Fr\'echet Inception Distance (FID) by 83-98% and generates significantly more
diversity in comparison to existing approaches.
- Abstract(参考訳): テキスト、グラフ、画像を含むマルチメディア文書の視覚的に魅力的なレイアウトを設計するには、創造的なインテリジェンスが必要である。
レイアウト生成のモデル化は最近、美学とコミュニケーションスタイルの重要性から注目を集めている。
通常の予測タスクとは対照的に、ユーザの好みに依存する許容範囲のレイアウトが存在する。
例えば、ポスターデザイナーは左上のロゴを好み、右下のロゴを好みます。
どちらも正しい選択だが、既存の機械学習モデルはレイアウトを単一の選択予測問題として扱う。
このような状況下では、これらのモデルは、縮退したサンプルを形成する同じ入力を与えられた全ての可能な選択を単純に平均化する。
上記の例では、中央にロゴが付いた受け入れがたいレイアウトになっている。
本稿では,レイアウト生成を効果的に安定化させるために,複数選択予測と入賞者全損失を用いた自動回帰ニューラルネットワークアーキテクチャLayoutMCLを提案する。
LayoutMCLは、複数の予測子を使用して、レイアウトオブジェクトごとに可能なオプションの範囲を学習することで平均化の問題を回避する。
これにより、layoutmclは単一の入力から複数の多様なレイアウトを生成することができる。
実データ(マガジン、ドキュメント、モバイルアプリのレイアウト)の定量的なベンチマークを通じて、LayoutMCLはFr\'echet Inception Distance (FID)を83~98%削減し、既存のアプローチと比較して大幅に多様性を増すことを示した。
関連論文リスト
- A Parse-Then-Place Approach for Generating Graphic Layouts from Textual
Descriptions [50.469491454128246]
我々は、図形レイアウト、すなわちテキストからラベルへのレイアウトを作成するためのガイダンスとしてテキストを使用し、設計障壁を低くすることを目的としています。
テキストからラベルへの変換は、テキストからの暗黙的、複合的、不完全な制約を考慮する必要があるため、難しい作業である。
この問題に対処するための2段階のアプローチとして,パース・セイン・プレース(parse-then-place)を提案する。
論文 参考訳(メタデータ) (2023-08-24T10:37:00Z) - Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image
Generation [150.61390274654968]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究であり,訓練作業率,作物・ペースト対リペイント,世代順等について述べる。
論文 参考訳(メタデータ) (2023-04-13T16:58:33Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDiffusion: Improving Graphic Layout Generation by Discrete
Diffusion Probabilistic Models [50.73105631853759]
レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。
このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。
これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-21T04:41:02Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [81.5482196644596]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - BLT: Bidirectional Layout Transformer for Controllable Layout Generation [27.239276265955954]
条件付きレイアウト生成のための双方向レイアウト変換器であるBLTを導入する。
提案手法は, 各種忠実度指標を用いた複数のベンチマークで検証する。
以上の結果から,最新のレイアウトトランスモデルに対する2つの重要な進歩が示された。
論文 参考訳(メタデータ) (2021-12-09T18:49:28Z) - Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。
提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。
実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-02T13:04:11Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。