論文の概要: UniCalli: A Unified Diffusion Framework for Column-Level Generation and Recognition of Chinese Calligraphy
- arxiv url: http://arxiv.org/abs/2510.13745v1
- Date: Wed, 15 Oct 2025 16:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.771535
- Title: UniCalli: A Unified Diffusion Framework for Column-Level Generation and Recognition of Chinese Calligraphy
- Title(参考訳): UniCalli: カラムレベル生成と中国語書体認識のための統一拡散フレームワーク
- Authors: Tianshuo Xu, Kai Wang, Zhifei Chen, Leyi Wu, Tianshui Wen, Fei Chao, Ying-Cong Chen,
- Abstract要約: 我々は列レベルの認識と生成のための統合拡散フレームワークである textbfUniCalli を紹介する。
8000以上のデジタル化された断片からなるデータセットを、4000以上の注釈付き断片でキュレートし、合成データ、ラベル付きデータ、ラベルなしデータの組み合わせでトレーニングしました。
このモデルは、より強力な認識とともに、より優れたリグチュア連続性とレイアウト忠実性を有する最先端の生成品質を実現する。
- 参考スコア(独自算出の注目度): 37.162115015010585
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Computational replication of Chinese calligraphy remains challenging. Existing methods falter, either creating high-quality isolated characters while ignoring page-level aesthetics like ligatures and spacing, or attempting page synthesis at the expense of calligraphic correctness. We introduce \textbf{UniCalli}, a unified diffusion framework for column-level recognition and generation. Training both tasks jointly is deliberate: recognition constrains the generator to preserve character structure, while generation provides style and layout priors. This synergy fosters concept-level abstractions that improve both tasks, especially in limited-data regimes. We curated a dataset of over 8,000 digitized pieces, with ~4,000 densely annotated. UniCalli employs asymmetric noising and a rasterized box map for spatial priors, trained on a mix of synthetic, labeled, and unlabeled data. The model achieves state-of-the-art generative quality with superior ligature continuity and layout fidelity, alongside stronger recognition. The framework successfully extends to other ancient scripts, including Oracle bone inscriptions and Egyptian hieroglyphs. Code and data can be viewed in \href{https://github.com/EnVision-Research/UniCalli}{this URL}.
- Abstract(参考訳): 中国の書道の計算複製は依然として困難である。
既存の手法では、リグチュアやスペーシングのようなページレベルの美学を無視しながら、高品質の孤立した文字を作成するか、書体的正しさを犠牲にしてページ合成を試みる。
我々は列レベルの認識と生成のための統合拡散フレームワークである \textbf{UniCalli} を紹介する。
認識は文字構造を保存するためにジェネレータを制約し、生成はスタイルとレイアウトの事前を提供する。
このシナジーは、特に限られたデータ構造において、両方のタスクを改善する概念レベルの抽象化を促進する。
私たちは8000以上のデジタル化された断片からなるデータセットをキュレートしました。
UniCalliは、非対称なノイズ付けとラスタ化ボックスマップを採用し、合成データ、ラベル付きデータ、ラベルなしデータを混合して訓練している。
このモデルは、より強力な認識とともに、より優れたリグチュア連続性とレイアウト忠実性を有する最先端の生成品質を実現する。
このフレームワークは、Oracleの骨碑文やエジプトのヒエログリフなど、他の古代のスクリプトにもうまく拡張されている。
コードとデータは \href{https://github.com/EnVision-Research/UniCalli}{this URL} で見ることができる。
関連論文リスト
- Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer [50.69959748410398]
我々は,自己回帰生成と理解を統一するための連続的な潜在空間を持つ新しい視覚トークンのファミリーであるMingTokを紹介する。
MingTokは低レベルエンコーディング、セマンティック拡張、視覚再構成を含む3段階のシーケンシャルアーキテクチャを採用している。
この上に構築されたMing-UniVisionは、タスク固有の視覚表現の必要性を排除し、単一の自己回帰予測パラダイムの下で多様な視覚言語タスクを統一する。
論文 参考訳(メタデータ) (2025-10-08T02:50:14Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - A Transformer Based Handwriting Recognition System Jointly Using Online and Offline Features [8.419663258260671]
オフライン画像とオンラインストロークデータの早期融合を行うエンド・ツー・エンド・ネットワークを提案する。
我々の手法は最先端の精度を達成し、過去のベストを最大1%上回っている。
論文 参考訳(メタデータ) (2025-06-25T08:58:47Z) - Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。
中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。
ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-06-23T17:59:14Z) - Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CCFRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。
ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。
テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-03-15T15:54:44Z) - An Autoregressive Text-to-Graph Framework for Joint Entity and Relation
Extraction [4.194768796374315]
条件付きシーケンス生成問題としてフレーミングすることで、非構造化テキストから結合エンティティと関係抽出を行う新しい手法を提案する。
ノードがテキストスパンを表し、エッジが関係トリプレットを表す線形化グラフを生成する。
本手法では,スパンと関係型の動的語彙にポインティング機構を付加したトランスフォーマーエンコーダデコーダアーキテクチャを用いる。
論文 参考訳(メタデータ) (2024-01-02T18:32:14Z) - DeepCalliFont: Few-shot Chinese Calligraphy Font Synthesis by
Integrating Dual-modality Generative Models [20.76773399161289]
特に中国語のフォントのフォント生成は困難で、進行中の課題である。
本稿では,2つのモダリティ生成モデルを統合することで,数ショットの漢字フォント合成のための新しいモデルDeepCalliFontを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:23:12Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。