論文の概要: Diff-Oracle: Deciphering Oracle Bone Scripts with Controllable Diffusion Model
- arxiv url: http://arxiv.org/abs/2312.13631v2
- Date: Mon, 8 Jul 2024 07:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 02:58:36.874450
- Title: Diff-Oracle: Deciphering Oracle Bone Scripts with Controllable Diffusion Model
- Title(参考訳): Diff-Oracle: 制御可能な拡散モデルでOracle Bone Scriptsを解読する
- Authors: Jing Li, Qiu-Feng Wang, Siyuan Wang, Rui Zhang, Kaizhu Huang, Erik Cambria,
- Abstract要約: オラクルの骨文書の解読は中国考古学や文献学において重要な役割を担っている。
Diff-Oracleは、制御可能なオラクル文字を生成する拡散モデルに基づく新しいアプローチである。
Diff-Oracleは、下流のオラクル文字認識に大きく貢献し、既存のSOTAをはるかに上回っている。
- 参考スコア(独自算出の注目度): 48.956844881630886
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deciphering oracle bone scripts plays an important role in Chinese archaeology and philology. However, a significant challenge remains due to the scarcity of oracle character images. To overcome this issue, we propose Diff-Oracle, a novel approach based on diffusion models to generate a diverse range of controllable oracle characters. Unlike traditional diffusion models that operate primarily on text prompts, Diff-Oracle incorporates a style encoder that utilizes style reference images to control the generation style. This encoder extracts style prompts from existing oracle character images, where style details are converted into a text embedding format via a pretrained language-vision model. On the other hand, a content encoder is integrated within Diff-Oracle to capture specific content details from content reference images, ensuring that the generated characters accurately represent the intended glyphs. To effectively train Diff-Oracle, we pre-generate pixel-level paired oracle character images (i.e., style and content images) by an image-to-image translation model. Extensive qualitative and quantitative experiments are conducted on datasets Oracle-241 and OBC306. While significantly surpassing present generative methods in terms of image generation, Diff-Oracle substantially benefits downstream oracle character recognition, outperforming all existing SOTAs by a large margin. In particular, on the challenging OBC306 dataset, Diff-Oracle leads to an accuracy gain of 7.70% in the zero-shot setting and is able to recognize unseen oracle character images with the accuracy of 84.62%, achieving a new benchmark for deciphering oracle bone scripts.
- Abstract(参考訳): オラクルの骨文書の解読は中国考古学や文献学において重要な役割を担っている。
しかし、オラクル・キャラクタ・イメージの不足により、大きな課題が残っている。
この問題を解決するために,拡散モデルに基づく新しい手法であるDiff-Oracleを提案する。
主にテキストプロンプトで動作する従来の拡散モデルとは異なり、Diff-Oracleはスタイル参照イメージを使用して生成スタイルを制御するスタイルエンコーダを組み込んでいる。
このエンコーダは、既存のオラクル文字画像からスタイルプロンプトを抽出し、事前訓練された言語ビジョンモデルを介して、スタイル詳細をテキスト埋め込み形式に変換する。
一方、コンテンツエンコーダはDiff-Oracleに統合され、コンテンツ参照画像から特定のコンテンツの詳細をキャプチャし、生成された文字が意図したグリフを正確に表現することを保証する。
Diff-Oracleを効果的に訓練するために、画像と画像の変換モデルを用いてピクセルレベルのペア化されたオラクル文字画像(スタイルとコンテンツイメージ)を事前生成する。
Oracle-241 と OBC306 のデータセットに対して、大規模な定性的かつ定量的な実験が行われた。
Diff-Oracleは、画像生成の点で現在の生成方法を大幅に上回っているが、下流のオラクル文字認識にはかなり効果があり、既存のSOTAをはるかに上回っている。
特に、挑戦的なOBC306データセットでは、Diff-Oracleはゼロショット設定で精度が7.70%向上し、84.62%の精度で未知のオラクル文字画像を認識することができ、オラクルの骨スクリプトを解読するための新しいベンチマークを達成している。
関連論文リスト
- Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - Unsupervised Attention Regularization Based Domain Adaptation for Oracle Character Recognition [59.05212866862219]
オラクル文字の研究は中国考古学や文献学において重要な役割を担っている。
実世界のスキャンされたオラクル文字の収集と注釈の難しさは、オラクル文字認識の発達を妨げる。
我々は,ラベル付き手書きオラクル文字からラベル付きスキャンデータへの認識知識を伝達するための,新しい教師なしドメイン適応(UDA)手法を開発した。
論文 参考訳(メタデータ) (2024-09-24T09:07:05Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Heracles: A Hybrid SSM-Transformer Model for High-Resolution Image and Time-Series Analysis [23.511807886483087]
Heraclesは、ローカルSSM、グローバルSSM、アテンションベースのトークンインタラクションモジュールを統合した、新しいSSMである。
Heraclesは、ImageNetデータセット上で84.5%のトップ1精度で最先端のパフォーマンスを達成する。
ヘラクレスは、CIFAR-10、CIFAR-100、オックスフォード・フラワーズ、スタンフォード・カーズといったデータセットのトランスファー学習タスクを卓越している。
論文 参考訳(メタデータ) (2024-03-26T19:29:21Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Oracle-MNIST: a Realistic Image Dataset for Benchmarking Machine
Learning Algorithms [57.29464116557734]
我々は,古文字30,222文字の28ドルのグレースケール画像からなるOracle-MNISTデータセットを紹介した。
トレーニングセットは完全に27,222枚の画像で構成され、テストセットにはクラス毎に300枚の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-19T09:57:45Z) - Unsupervised Structure-Texture Separation Network for Oracle Character
Recognition [70.29024469395608]
オラクルの骨書は上海王朝の中国最古の書記体系であり、考古学や文献学に重要視されている。
そこで本稿では, 連関, 変換, 適応, 認識のためのエンドツーエンド学習フレームワークである構造テクスチャ分離ネットワーク(STSN)を提案する。
論文 参考訳(メタデータ) (2022-05-13T10:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。