論文の概要: Diff-Oracle: Diffusion Model for Oracle Character Generation with
Controllable Styles and Contents
- arxiv url: http://arxiv.org/abs/2312.13631v1
- Date: Thu, 21 Dec 2023 07:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:39:59.690784
- Title: Diff-Oracle: Diffusion Model for Oracle Character Generation with
Controllable Styles and Contents
- Title(参考訳): Diff-Oracle: 制御可能なスタイルとコンテンツを備えたOracle文字生成のための拡散モデル
- Authors: Jing Li, Qiu-Feng Wang, Kaizhu Huang, Rui Zhang, Siyuan Wang
- Abstract要約: 骨文書の解読は中国考古学や文献学において重要な役割を担っている。
拡散モデル(DM)に基づくDiff-Oracleを提案する。
テキストプロンプトに依存するほとんどのDMとは対照的に、生成プロセス中にスタイル情報を制御するためのスタイルエンコーダが組み込まれている。
- 参考スコア(独自算出の注目度): 32.00645638829282
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deciphering the oracle bone script plays a significant role in Chinese
archaeology and philology. However, it is significantly challenging due to the
scarcity of oracle character images. To overcome this issue, we propose
Diff-Oracle, based on diffusion models (DMs), to generate sufficient
controllable oracle characters. In contrast to most DMs that rely on text
prompts, we incorporate a style encoder to control style information during the
generation process. This encoder extracts style prompts from existing oracle
character images, where style details are converted from a CLIP model into a
text embedding format. Inspired by ControlNet, we introduce a content encoder
to capture desired content information from content images, ensuring the
fidelity of character glyphs. To train Diff-Oracle effectively, we propose to
obtain pixel-level paired oracle character images (i.e., style and content
images) by a pre-trained image-to-image translation model. Extensive
qualitative and quantitative experiments conducted on two benchmark datasets,
Oracle-241 and OBC306, demonstrate that our Diff-Oracle outperforms existing
generative methods in terms of image generation, further enhancing recognition
accuracy. Source codes will be available.
- Abstract(参考訳): 骨文書の解読は中国考古学や文献学において重要な役割を担っている。
しかし, オラクル文字画像が不足しているため, 極めて困難である。
この問題を解決するために,拡散モデル(DM)に基づくDiff-Oracleを提案し,十分な制御可能なオラクル文字を生成する。
テキストプロンプトに依存するほとんどのDMとは対照的に、生成プロセス中にスタイル情報を制御するためにスタイルエンコーダを組み込む。
このエンコーダは、既存のオラクル文字画像からスタイルプロンプトを抽出し、スタイルの詳細をCLIPモデルからテキスト埋め込みフォーマットに変換する。
ControlNetにインスパイアされたコンテンツエンコーダは、コンテンツ画像から所望のコンテンツ情報をキャプチャし、文字グリフの忠実さを保証する。
diff-oracleを効果的に訓練するために,事前学習した画像から画像への翻訳モデルを用いて,ピクセルレベル対oracle文字画像(すなわちスタイルとコンテンツ画像)を得ることを提案する。
2つのベンチマークデータセットである Oracle-241 と OBC306 で実施された大規模な定性的および定量的実験は、Diff-Oracle が画像生成において既存の生成方法より優れており、認識精度がさらに向上していることを示している。
ソースコードは利用可能だ。
関連論文リスト
- Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - Unsupervised Attention Regularization Based Domain Adaptation for Oracle Character Recognition [59.05212866862219]
オラクル文字の研究は中国考古学や文献学において重要な役割を担っている。
実世界のスキャンされたオラクル文字の収集と注釈の難しさは、オラクル文字認識の発達を妨げる。
我々は,ラベル付き手書きオラクル文字からラベル付きスキャンデータへの認識知識を伝達するための,新しい教師なしドメイン適応(UDA)手法を開発した。
論文 参考訳(メタデータ) (2024-09-24T09:07:05Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Heracles: A Hybrid SSM-Transformer Model for High-Resolution Image and Time-Series Analysis [23.511807886483087]
Heraclesは、ローカルSSM、グローバルSSM、アテンションベースのトークンインタラクションモジュールを統合した、新しいSSMである。
Heraclesは、ImageNetデータセット上で84.5%のトップ1精度で最先端のパフォーマンスを達成する。
ヘラクレスは、CIFAR-10、CIFAR-100、オックスフォード・フラワーズ、スタンフォード・カーズといったデータセットのトランスファー学習タスクを卓越している。
論文 参考訳(メタデータ) (2024-03-26T19:29:21Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Oracle-MNIST: a Realistic Image Dataset for Benchmarking Machine
Learning Algorithms [57.29464116557734]
我々は,古文字30,222文字の28ドルのグレースケール画像からなるOracle-MNISTデータセットを紹介した。
トレーニングセットは完全に27,222枚の画像で構成され、テストセットにはクラス毎に300枚の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-19T09:57:45Z) - Unsupervised Structure-Texture Separation Network for Oracle Character
Recognition [70.29024469395608]
オラクルの骨書は上海王朝の中国最古の書記体系であり、考古学や文献学に重要視されている。
そこで本稿では, 連関, 変換, 適応, 認識のためのエンドツーエンド学習フレームワークである構造テクスチャ分離ネットワーク(STSN)を提案する。
論文 参考訳(メタデータ) (2022-05-13T10:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。