論文の概要: Automatic Text Box Placement for Supporting Typographic Design
- arxiv url: http://arxiv.org/abs/2510.07665v1
- Date: Thu, 09 Oct 2025 01:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.806456
- Title: Automatic Text Box Placement for Supporting Typographic Design
- Title(参考訳): タイポグラフィー設計支援のためのテキストボックスの自動配置
- Authors: Jun Muraoka, Daichi Haraguchi, Naoto Inoue, Wataru Shimoda, Kota Yamaguchi, Seiichi Uchida,
- Abstract要約: 本研究では,不完全レイアウトにおけるテキストボックスの自動配置について検討する。
標準的なTransformerベースの手法、小さなVision and Language Model(Phi3.5-vision)、大きな事前訓練されたVLM(Gemini)、複数の画像を処理する拡張Transformerを比較する。
- 参考スコア(独自算出の注目度): 16.188785665663755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In layout design for advertisements and web pages, balancing visual appeal and communication efficiency is crucial. This study examines automated text box placement in incomplete layouts, comparing a standard Transformer-based method, a small Vision and Language Model (Phi3.5-vision), a large pretrained VLM (Gemini), and an extended Transformer that processes multiple images. Evaluations on the Crello dataset show the standard Transformer-based models generally outperform VLM-based approaches, particularly when incorporating richer appearance information. However, all methods face challenges with very small text or densely populated layouts. These findings highlight the benefits of task-specific architectures and suggest avenues for further improvement in automated layout design.
- Abstract(参考訳): 広告やWebページのレイアウト設計においては、視覚的魅力とコミュニケーション効率のバランスが不可欠である。
本研究では,標準トランスフォーマ方式,小型ビジョン・アンド・ランゲージ・モデル(Phi3.5-vision),大規模事前学習型VLM(Gemini),複数画像を処理する拡張トランスフォーマを比較検討した。
Crelloデータセットの評価では、標準のTransformerベースのモデルは一般的にVLMベースのアプローチよりも優れている。
しかし、すべての手法は、非常に小さなテキストや密集したレイアウトで困難に直面している。
これらの知見は、タスク固有のアーキテクチャの利点を強調し、自動レイアウト設計のさらなる改善の道筋を示唆している。
関連論文リスト
- Evaluating the Robustness of Open-Source Vision-Language Models to Domain Shift in Object Captioning [4.180203626942459]
VLM(Vision-Language Models)は、視覚データからテキスト記述を生成する強力なツールとして登場した。
本稿では,単視点オブジェクトキャプションタスクにおけるVLM性能の体系的評価について述べる。
我々は,2つの異なるオブジェクトセットのキャプション精度を比較した。複数の素材,現実世界のツールの集合と,1つの素材,3Dプリントされたアイテムの集合である。
論文 参考訳(メタデータ) (2025-06-24T12:45:09Z) - Aggregated Structural Representation with Large Language Models for Human-Centric Layout Generation [7.980497203230983]
本稿では,グラフネットワークを大規模言語モデル (LLM) と統合して構造情報を保存し,生成能力を向上するアグリゲーション構造表現 (ASR) モジュールを提案する。
RICOデータセットに対する包括的評価は、平均的相互接続(mIoU)と、クラウドソーシングによるユーザスタディによる定性の両方を用いて、ASRの強い性能を示す。
論文 参考訳(メタデータ) (2025-05-26T06:17:21Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。
本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。
本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。