論文の概要: Text-Conditioned Background Generation for Editable Multi-Layer Documents
- arxiv url: http://arxiv.org/abs/2512.17151v1
- Date: Fri, 19 Dec 2025 01:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.212533
- Title: Text-Conditioned Background Generation for Editable Multi-Layer Documents
- Title(参考訳): 編集可能な多層文書のテキスト記述背景生成
- Authors: Taewon Kang, Joseph K J, Chris Tensmeyer, Jihyung Kil, Wanrong Zhu, Ming C. Lin, Vlad I. Morariu,
- Abstract要約: マルチページ編集とテーマ連続性を備えた文書中心の背景生成のためのフレームワークを提案する。
トレーニング不要なフレームワークは、視覚的に一貫性のあるテキスト保存ドキュメントを生成し、自然な設計による生成モデリングをブリッジする。
- 参考スコア(独自算出の注目度): 32.896370365677136
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a framework for document-centric background generation with multi-page editing and thematic continuity. To ensure text regions remain readable, we employ a \emph{latent masking} formulation that softly attenuates updates in the diffusion space, inspired by smooth barrier functions in physics and numerical optimization. In addition, we introduce \emph{Automated Readability Optimization (ARO)}, which automatically places semi-transparent, rounded backing shapes behind text regions. ARO determines the minimal opacity needed to satisfy perceptual contrast standards (WCAG 2.2) relative to the underlying background, ensuring readability while maintaining aesthetic harmony without human intervention. Multi-page consistency is maintained through a summarization-and-instruction process, where each page is distilled into a compact representation that recursively guides subsequent generations. This design reflects how humans build continuity by retaining prior context, ensuring that visual motifs evolve coherently across an entire document. Our method further treats a document as a structured composition in which text, figures, and backgrounds are preserved or regenerated as separate layers, allowing targeted background editing without compromising readability. Finally, user-provided prompts allow stylistic adjustments in color and texture, balancing automated consistency with flexible customization. Our training-free framework produces visually coherent, text-preserving, and thematically aligned documents, bridging generative modeling with natural design workflows.
- Abstract(参考訳): マルチページ編集とテーマ連続性を備えた文書中心の背景生成のためのフレームワークを提案する。
テキスト領域の可読性を維持するため,拡散空間の更新をソフトに抑制する \emph{latent masking} の定式化を用いて,物理および数値最適化におけるスムーズな障壁関数に着想を得た。
さらに,テキスト領域の後方に半透明で丸い背景形状を自動的に配置する「emph{Automated Readability Optimization (ARO)」を導入する。
AROは、知覚コントラスト標準(WCAG 2.2)を満たすために必要な最小の不透明度を決定し、人間の介入なしに審美的調和を維持しながら、可読性を確保する。
複数ページの整合性は要約命令プロセスを通じて維持され、各ページは連続的に次の世代を導くコンパクトな表現に蒸留される。
このデザインは、人間が事前のコンテキストを維持して連続性を構築する方法を反映し、視覚的なモチーフがドキュメント全体にわたって一貫性を持って進化することを保証する。
さらに,テキスト,図形,背景を別々のレイヤとして保存あるいは再生する構造化された構成として文書を扱い,読みやすさを損なうことなく,対象とする背景編集を可能にする。
最後に、ユーザが提供するプロンプトは、色とテクスチャのスタイリスティックな調整を可能にし、自動化された一貫性とフレキシブルなカスタマイズのバランスをとる。
トレーニング不要なフレームワークは、視覚的に一貫性があり、テキスト保存され、数学的に整合したドキュメントを生成し、生成モデリングを自然な設計ワークフローでブリッジする。
関連論文リスト
- Geometric Disentanglement of Text Embeddings for Subject-Consistent Text-to-Image Generation using A Single Prompt [14.734857939203811]
主観的視点から意味的絡み合いに対処する学習自由アプローチを提案する。
提案手法は既存のベースラインに対する主観的一貫性とテキストアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2025-12-18T11:55:06Z) - ReMix: Towards a Unified View of Consistent Character Generation and Editing [22.04681457337335]
ReMixは、文字一貫性の生成と編集のための統一されたフレームワークである。
ReMixモジュールとIP-ControlNetという2つのコアコンポーネントで構成されている。
ReMixはパーソナライズされた生成、画像編集、スタイル転送、マルチ条件合成など、幅広いタスクをサポートしている。
論文 参考訳(メタデータ) (2025-10-11T10:31:56Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Recognition-Synergistic Scene Text Editing [41.91470824144351]
シーンテキスト編集は、スタイルの一貫性を維持しながらシーンイメージ内のテキスト内容を変更することを目的としている。
従来の方法では、ソースイメージからスタイルとコンテンツを明示的に切り離し、ターゲットコンテンツとスタイルを融合することでこれを実現している。
本稿では,テキスト認識の本質的な相乗効果を完全に活用した新しいアプローチである認識-Synergistic Scene Text Editing (RS-STE)を紹介する。
論文 参考訳(メタデータ) (2025-03-11T12:50:38Z) - Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。