Fugu-MT 論文翻訳(概要): Diverse Multimedia Layout Generation with Multi Choice Learning

論文の概要: Diverse Multimedia Layout Generation with Multi Choice Learning

arxiv url: http://arxiv.org/abs/2301.06629v1
Date: Mon, 16 Jan 2023 22:53:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-18 15:14:06.972562
Title: Diverse Multimedia Layout Generation with Multi Choice Learning
Title（参考訳）: マルチチョイス学習による多様なマルチメディアレイアウト生成
Authors: David D. Nguyen, Surya Nepal, Salil S. Kanhere
Abstract要約: 通常の予測タスクとは対照的に、ユーザの好みに依存する許容範囲のレイアウトが存在する。既存の機械学習モデルは、レイアウトを単一の選択予測問題として扱う。自動回帰ニューラルネットワークアーキテクチャであるLayoutMCLを提案する。
参考スコア（独自算出の注目度）: 27.542940346258916
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Designing visually appealing layouts for multimedia documents containing text, graphs and images requires a form of creative intelligence. Modelling the generation of layouts has recently gained attention due to its importance in aesthetics and communication style. In contrast to standard prediction tasks, there are a range of acceptable layouts which depend on user preferences. For example, a poster designer may prefer logos on the top-left while another prefers logos on the bottom-right. Both are correct choices yet existing machine learning models treat layouts as a single choice prediction problem. In such situations, these models would simply average over all possible choices given the same input forming a degenerate sample. In the above example, this would form an unacceptable layout with a logo in the centre. In this paper, we present an auto-regressive neural network architecture, called LayoutMCL, that uses multi-choice prediction and winner-takes-all loss to effectively stabilise layout generation. LayoutMCL avoids the averaging problem by using multiple predictors to learn a range of possible options for each layout object. This enables LayoutMCL to generate multiple and diverse layouts from a single input which is in contrast with existing approaches which yield similar layouts with minor variations. Through quantitative benchmarks on real data (magazine, document and mobile app layouts), we demonstrate that LayoutMCL reduces Fr\'echet Inception Distance (FID) by 83-98% and generates significantly more diversity in comparison to existing approaches.
Abstract（参考訳）: テキスト、グラフ、画像を含むマルチメディア文書の視覚的に魅力的なレイアウトを設計するには、創造的なインテリジェンスが必要である。レイアウト生成のモデル化は最近、美学とコミュニケーションスタイルの重要性から注目を集めている。通常の予測タスクとは対照的に、ユーザの好みに依存する許容範囲のレイアウトが存在する。例えば、ポスターデザイナーは左上のロゴを好み、右下のロゴを好みます。どちらも正しい選択だが、既存の機械学習モデルはレイアウトを単一の選択予測問題として扱う。このような状況下では、これらのモデルは、縮退したサンプルを形成する同じ入力を与えられた全ての可能な選択を単純に平均化する。上記の例では、中央にロゴが付いた受け入れがたいレイアウトになっている。本稿では,レイアウト生成を効果的に安定化させるために,複数選択予測と入賞者全損失を用いた自動回帰ニューラルネットワークアーキテクチャLayoutMCLを提案する。 LayoutMCLは、複数の予測子を使用して、レイアウトオブジェクトごとに可能なオプションの範囲を学習することで平均化の問題を回避する。これにより、layoutmclは単一の入力から複数の多様なレイアウトを生成することができる。実データ(マガジン、ドキュメント、モバイルアプリのレイアウト)の定量的なベンチマークを通じて、LayoutMCLはFr\'echet Inception Distance (FID)を83～98%削減し、既存のアプローチと比較して大幅に多様性を増すことを示した。

関連論文リスト

ReLayout: Integrating Relation Reasoning for Content-aware Layout Generation with Multi-modal Large Language Models [7.288330685534444]
我々はReを導入する。ReはRelation-CoTを利用してより合理的で一貫性のあるレイアウトを生成する新しい手法である。具体的には、要素間の領域、完全性、マージンといった明示的な関係定義を導入することで、レイアウトアノテーションを強化する。また、3次元にわたるレイアウトプロトタイプ機能を定義し、異なるレイアウトスタイルを定量化するレイアウトプロトタイプサンプルも導入する。
論文参考訳（メタデータ） (2025-07-08T01:13:43Z)
AesthetiQ: Enhancing Graphic Layout Design via Aesthetic-Aware Preference Alignment of Multi-modal Large Language Models [15.483561230992768]
Aesthetic-Aware Preference Alignment (AAPA)はレイアウトインタフェースのためのMLLM(Multi-modal Large Language Model)をトレーニングする新しいテクニックである。高品質なレイアウト上でのトレーニングを確実にするための,レイアウト品質予測プロトコルを利用したデータフィルタリングプロトコルを提案する。我々は、CrelloとWebuiの2つの挑戦的なベンチマークに対して、我々のアプローチの有効性を実証し、17%、現在のState-of-The-Artメソッドよりも16の改善を示した。
論文参考訳（メタデータ） (2025-03-01T19:05:02Z)
CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation [78.21134311493303]
拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。従来の手法は主にUNetベースのモデル(SD1.5やSDXLなど)に重点を置いており、限られた努力でMM-DiT(Multimodal Diffusion Transformer)を探索している。 MM-DiTの利点を継承して、画像とテキストのモダリティを処理するために、別々の集合ネットワーク重みを用いる。大規模なレイアウトデータセットであるLayoutSAMには、270万のイメージテキストペアと1070万のエンティティが含まれています。
論文参考訳（メタデータ） (2024-12-05T04:09:47Z)
GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文参考訳（メタデータ） (2024-11-18T10:04:10Z)
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文参考訳（メタデータ） (2024-06-05T03:05:52Z)
LayoutFlow: Flow Matching for Layout Generation [23.045325684880957]
高品質なレイアウトを生成することができる効率的なフローベースモデルを提案する。提案手法は,最終予測に到達するまで,初期サンプルの要素を徐々に移動し,流れていくことを学習する。
論文参考訳（メタデータ） (2024-03-27T01:40:21Z)
PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文参考訳（メタデータ） (2023-03-28T12:48:36Z)
LayoutDiffusion: Improving Graphic Layout Generation by Discrete Diffusion Probabilistic Models [50.73105631853759]
レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-03-21T04:41:02Z)
LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文参考訳（メタデータ） (2022-12-19T21:57:35Z)
BLT: Bidirectional Layout Transformer for Controllable Layout Generation [27.239276265955954]
条件付きレイアウト生成のための双方向レイアウト変換器であるBLTを導入する。提案手法は, 各種忠実度指標を用いた複数のベンチマークで検証する。以上の結果から,最新のレイアウトトランスモデルに対する2つの重要な進歩が示された。
論文参考訳（メタデータ） (2021-12-09T18:49:28Z)
Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文参考訳（メタデータ） (2021-08-02T13:04:11Z)
LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文参考訳（メタデータ） (2020-06-25T17:56:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。