論文の概要: CalliMaster: Mastering Page-level Chinese Calligraphy via Layout-guided Spatial Planning
- arxiv url: http://arxiv.org/abs/2603.12482v1
- Date: Thu, 12 Mar 2026 22:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.784377
- Title: CalliMaster: Mastering Page-level Chinese Calligraphy via Layout-guided Spatial Planning
- Title(参考訳): CalliMaster: Layout-guided Space Planningによるページレベルの中国語書体をマスターする
- Authors: Tianshuo Xu, Tiantian Hong, Zhifei Chen, Fei Chao, Ying-cong Chen,
- Abstract要約: ページレベルの書記合成には、グリフの精度とレイアウト構成のバランスが必要である。
制御可能な生成および編集のための統合フレームワークである textbfCalliMaster を提案する。
- 参考スコア(独自算出の注目度): 37.872480365351485
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Page-level calligraphy synthesis requires balancing glyph precision with layout composition. Existing character models lack spatial context, while page-level methods often compromise brushwork detail. In this paper, we present \textbf{CalliMaster}, a unified framework for controllable generation and editing that resolves this conflict by decoupling spatial planning from content synthesis. Inspired by the human cognitive process of ``planning before writing'', we introduce a coarse-to-fine pipeline \textbf{(Text $\rightarrow$ Layout $\rightarrow$ Image)} to tackle the combinatorial complexity of page-scale synthesis. Operating within a single Multimodal Diffusion Transformer, a spatial planning stage first predicts character bounding boxes to establish the global spatial arrangement. This intermediate layout then serves as a geometric prompt for the content synthesis stage, where the same network utilizes flow-matching to render high-fidelity brushwork. Beyond achieving state-of-the-art generation quality, this disentanglement supports versatile downstream capabilities. By treating the layout as a modifiable constraint, CalliMaster enables controllable semantic re-planning: users can resize or reposition characters while the model automatically harmonizes the surrounding void space and brush momentum. Furthermore, we demonstrate the framework's extensibility to artifact restoration and forensic analysis, providing a comprehensive tool for digital cultural heritage.
- Abstract(参考訳): ページレベルの書記合成には、グリフの精度とレイアウト構成のバランスが必要である。
既存の文字モデルは空間的コンテキストを欠いているが、ページレベルの手法は筆記の細部を妥協することが多い。
本稿では、コンテンツ合成から空間計画を切り離すことで、この対立を解消する制御可能な生成と編集のための統一的なフレームワークである「textbf{CalliMaster}」を提案する。
の人間の認知プロセスにインスパイアされ、ページスケール合成の組合せ複雑性に対処するために、粗いから細いパイプライン \textbf{(Text $\rightarrow$ Layout $\rightarrow$ Image)} を導入する。
1つのマルチモーダル拡散変換器内で動作し、まず空間計画段階が文字境界ボックスを予測し、大域空間配置を確立する。
この中間配置は、コンテンツ合成段階の幾何学的プロンプトとして機能し、同じネットワークがフローマッチングを使用して高忠実度ブラシを描画する。
最先端の世代品質を達成するだけでなく、この切り離しは汎用的な下流機能をサポートする。
レイアウトを変更可能な制約として扱うことで、CalliMasterはコントロール可能なセマンティック再計画を可能にする。
さらに, デジタル文化遺産の包括的ツールとして, 考古学的復元と法医学的分析へのフレームワークの拡張性を示す。
関連論文リスト
- All-in-One Conditioning for Text-to-Image Synthesis [45.22434803596108]
シーングラフ構造の枠組みの中で,テキストと画像の合成を基盤とする新しい手法を提案する。
推論中にソフトな視覚誘導を生成するゼロショットシーングラフベースの条件付け機構を導入する。
これにより、軽量でコヒーレントで多様な画像合成をサポートしながら、テキストイメージのアライメントを維持することができる。
論文 参考訳(メタデータ) (2026-02-09T20:16:19Z) - Text-Conditioned Background Generation for Editable Multi-Layer Documents [32.896370365677136]
マルチページ編集とテーマ連続性を備えた文書中心の背景生成のためのフレームワークを提案する。
トレーニング不要なフレームワークは、視覚的に一貫性のあるテキスト保存ドキュメントを生成し、自然な設計による生成モデリングをブリッジする。
論文 参考訳(メタデータ) (2025-12-19T01:10:24Z) - UniCalli: A Unified Diffusion Framework for Column-Level Generation and Recognition of Chinese Calligraphy [37.162115015010585]
我々は列レベルの認識と生成のための統合拡散フレームワークである textbfUniCalli を紹介する。
8000以上のデジタル化された断片からなるデータセットを、4000以上の注釈付き断片でキュレートし、合成データ、ラベル付きデータ、ラベルなしデータの組み合わせでトレーニングしました。
このモデルは、より強力な認識とともに、より優れたリグチュア連続性とレイアウト忠実性を有する最先端の生成品質を実現する。
論文 参考訳(メタデータ) (2025-10-15T16:52:07Z) - MUSE: Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion [15.787883177836362]
本稿では、参照対象の忠実な再構成と、特定の領域の正確な配置の両方を必要とするレイアウト制御可能な多目的合成(LMS)の課題に対処する。
本稿では,レイアウト仕様とテキストガイダンスをシームレスに統合する統合合成フレームワークMUSEを提案する。
論文 参考訳(メタデータ) (2025-08-20T05:52:26Z) - Robust Image Stitching with Optimal Plane [39.80133570371559]
textitRopStitchは、堅牢性と自然性の両方を備えた教師なしの深層画像縫合フレームワークである。
textitRopStitchは、特にシーンの堅牢性とコンテンツ自然性において、既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-08-07T23:53:26Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z) - CoSE: Compositional Stroke Embeddings [52.529172734044664]
本稿では、ストロークベースの描画タスクのような複雑な自由形式構造に対する生成モデルを提案する。
我々のアプローチは、自動補完図のようなインタラクティブなユースケースに適している。
論文 参考訳(メタデータ) (2020-06-17T15:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。