論文の概要: BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation
- arxiv url: http://arxiv.org/abs/2503.20672v1
- Date: Wed, 26 Mar 2025 16:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:14.164535
- Title: BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation
- Title(参考訳): BizGen: インフォグラフィック生成のための記事レベルのビジュアルテキストレンダリングの改善
- Authors: Yuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan,
- Abstract要約: 本稿では,ユーザが提供する記事レベル記述プロンプトと超高密度レイアウトに基づいて,インフォグラフィックやスライドを含む高品質なビジネスコンテンツを生成する新しいタスクを提案する。
基本的な課題は、コンテキストの長さと高品質なビジネスコンテンツデータの不足である。
i)超高密度レイアウトを備えたスケーラブルで高品質なビジネスコンテンツデータセット、すなわちInfographics-650Kの構築、レイヤワイド検索強化インフォグラフィック生成方式の導入によるプロンプト、(ii)レイアウト誘導型クロスアテンション方式の2つの重要な技術貢献を行う。
- 参考スコア(独自算出の注目度): 21.215947639452224
- License:
- Abstract: Recently, state-of-the-art text-to-image generation models, such as Flux and Ideogram 2.0, have made significant progress in sentence-level visual text rendering. In this paper, we focus on the more challenging scenarios of article-level visual text rendering and address a novel task of generating high-quality business content, including infographics and slides, based on user provided article-level descriptive prompts and ultra-dense layouts. The fundamental challenges are twofold: significantly longer context lengths and the scarcity of high-quality business content data. In contrast to most previous works that focus on a limited number of sub-regions and sentence-level prompts, ensuring precise adherence to ultra-dense layouts with tens or even hundreds of sub-regions in business content is far more challenging. We make two key technical contributions: (i) the construction of scalable, high-quality business content dataset, i.e., Infographics-650K, equipped with ultra-dense layouts and prompts by implementing a layer-wise retrieval-augmented infographic generation scheme; and (ii) a layout-guided cross attention scheme, which injects tens of region-wise prompts into a set of cropped region latent space according to the ultra-dense layouts, and refine each sub-regions flexibly during inference using a layout conditional CFG. We demonstrate the strong results of our system compared to previous SOTA systems such as Flux and SD3 on our BizEval prompt set. Additionally, we conduct thorough ablation experiments to verify the effectiveness of each component. We hope our constructed Infographics-650K and BizEval can encourage the broader community to advance the progress of business content generation.
- Abstract(参考訳): 近年、FluxやIdeogram 2.0のような最先端のテキスト・画像生成モデルは、文レベルのビジュアルテキストレンダリングにおいて大きな進歩を遂げている。
本稿では,ユーザが提供する記事レベル記述プロンプトとウルトラディエンスレイアウトに基づいて,記事レベルのビジュアルテキストレンダリングのより困難なシナリオに注目し,インフォグラフィックやスライドを含む高品質なビジネスコンテンツを生成する新たな課題に対処する。
基本的な課題は2つあります – コンテキストの長さが非常に長く,高品質なビジネスコンテンツデータの不足です。
制限されたサブリージョンと文レベルのプロンプトにフォーカスする以前のほとんどの作品とは対照的に、ビジネスコンテンツにおいて数十ないし数百のサブリージョンを持つ超高密度レイアウトへの正確な順守は、はるかに困難である。
私たちは2つの重要な技術貢献をしています。
一 スケーラブルで高品質なビジネスコンテンツデータセット、すなわち、超高密度レイアウトを備えたInfographics-650Kの構築。
2) 配置条件CFGを用いて, 超高密度レイアウトに従って, 収穫領域潜在空間に数十の領域的プロンプトを注入し, 推論中に各サブリージョンを柔軟に洗練するレイアウト誘導型クロスアテンションスキーム。
我々は,BizEvalプロンプトセット上のFluxやSD3といった従来のSOTAシステムと比較して,システムの強みを実証する。
さらに, 各成分の有効性を検証するために, 徹底的なアブレーション実験を行った。
構築したInfographics-650KとBizEvalが、幅広いコミュニティにビジネスコンテンツ生成の進歩を促すことを願っています。
関連論文リスト
- Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Hierarchical Compression of Text-Rich Graphs via Large Language Models [63.75293588479027]
テキストリッチグラフは、eコマースや学術グラフのようなデータマイニングの文脈で広く使われている。
本稿では,LLMの能力とテキストリッチグラフの構造を整合させる新しい手法であるHiComを紹介する。
HiComは、Eコマースと引用グラフのノード分類において、GNNとLLMのバックボーンよりも優れている。
論文 参考訳(メタデータ) (2024-06-13T07:24:46Z) - BEV-TSR: Text-Scene Retrieval in BEV Space for Autonomous Driving [46.84729450920804]
本稿では,BEV-TSRフレームワークを提案する。BEV-TSRフレームワークは,バードアイビュー空間内の対応するシーンを検索するために,記述テキストを入力として利用する。
我々は,大言語モデル(LLM)を用いてテキスト入力の意味的特徴を抽出し,知識グラフの埋め込みを取り入れ,言語埋め込みの意味的豊かさを高める。
マルチレベルnuScenes-Retrievalの実験結果によると、BEV-TSRは、例えば85.78%と87.66%のトップ1の精度をシーン・トゥ・テキスト・ツー・シーンで達成している。
論文 参考訳(メタデータ) (2024-01-02T06:56:23Z) - TextPSG: Panoptic Scene Graph Generation from Textual Descriptions [78.1140391134517]
我々は、純文記述(Caption-to-PSG)によるパノプティカルシーングラフ生成の新たな課題について検討する。
鍵となるアイデアは、Web上の大量の無料画像キャプチャーデータを活用して、パノラマシーングラフを生成することである。
本研究では,4つのモジュール,すなわちリージョングルーパー,エンティティグルーパー,セグメントマージ,ラベルジェネレータからなる新しいフレームワークであるTextPSGを提案する。
論文 参考訳(メタデータ) (2023-10-10T22:36:15Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。