論文の概要: Automatic Text Box Placement for Supporting Typographic Design
- arxiv url: http://arxiv.org/abs/2510.07665v1
- Date: Thu, 09 Oct 2025 01:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.806456
- Title: Automatic Text Box Placement for Supporting Typographic Design
- Title(参考訳): タイポグラフィー設計支援のためのテキストボックスの自動配置
- Authors: Jun Muraoka, Daichi Haraguchi, Naoto Inoue, Wataru Shimoda, Kota Yamaguchi, Seiichi Uchida,
- Abstract要約: 本研究では,不完全レイアウトにおけるテキストボックスの自動配置について検討する。
標準的なTransformerベースの手法、小さなVision and Language Model(Phi3.5-vision)、大きな事前訓練されたVLM(Gemini)、複数の画像を処理する拡張Transformerを比較する。
- 参考スコア(独自算出の注目度): 16.188785665663755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In layout design for advertisements and web pages, balancing visual appeal and communication efficiency is crucial. This study examines automated text box placement in incomplete layouts, comparing a standard Transformer-based method, a small Vision and Language Model (Phi3.5-vision), a large pretrained VLM (Gemini), and an extended Transformer that processes multiple images. Evaluations on the Crello dataset show the standard Transformer-based models generally outperform VLM-based approaches, particularly when incorporating richer appearance information. However, all methods face challenges with very small text or densely populated layouts. These findings highlight the benefits of task-specific architectures and suggest avenues for further improvement in automated layout design.
- Abstract(参考訳): 広告やWebページのレイアウト設計においては、視覚的魅力とコミュニケーション効率のバランスが不可欠である。
本研究では,標準トランスフォーマ方式,小型ビジョン・アンド・ランゲージ・モデル(Phi3.5-vision),大規模事前学習型VLM(Gemini),複数画像を処理する拡張トランスフォーマを比較検討した。
Crelloデータセットの評価では、標準のTransformerベースのモデルは一般的にVLMベースのアプローチよりも優れている。
しかし、すべての手法は、非常に小さなテキストや密集したレイアウトで困難に直面している。
これらの知見は、タスク固有のアーキテクチャの利点を強調し、自動レイアウト設計のさらなる改善の道筋を示唆している。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。