Fugu-MT 論文翻訳(概要): Diff-Oracle: Diffusion Model for Oracle Character Generation with Controllable Styles and Contents

論文の概要: Diff-Oracle: Diffusion Model for Oracle Character Generation with Controllable Styles and Contents

arxiv url: http://arxiv.org/abs/2312.13631v1
Date: Thu, 21 Dec 2023 07:48:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 15:39:59.690784
Title: Diff-Oracle: Diffusion Model for Oracle Character Generation with Controllable Styles and Contents
Title（参考訳）: Diff-Oracle: 制御可能なスタイルとコンテンツを備えたOracle文字生成のための拡散モデル
Authors: Jing Li, Qiu-Feng Wang, Kaizhu Huang, Rui Zhang, Siyuan Wang
Abstract要約: 骨文書の解読は中国考古学や文献学において重要な役割を担っている。拡散モデル(DM)に基づくDiff-Oracleを提案する。テキストプロンプトに依存するほとんどのDMとは対照的に、生成プロセス中にスタイル情報を制御するためのスタイルエンコーダが組み込まれている。
参考スコア（独自算出の注目度）: 32.00645638829282
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Deciphering the oracle bone script plays a significant role in Chinese archaeology and philology. However, it is significantly challenging due to the scarcity of oracle character images. To overcome this issue, we propose Diff-Oracle, based on diffusion models (DMs), to generate sufficient controllable oracle characters. In contrast to most DMs that rely on text prompts, we incorporate a style encoder to control style information during the generation process. This encoder extracts style prompts from existing oracle character images, where style details are converted from a CLIP model into a text embedding format. Inspired by ControlNet, we introduce a content encoder to capture desired content information from content images, ensuring the fidelity of character glyphs. To train Diff-Oracle effectively, we propose to obtain pixel-level paired oracle character images (i.e., style and content images) by a pre-trained image-to-image translation model. Extensive qualitative and quantitative experiments conducted on two benchmark datasets, Oracle-241 and OBC306, demonstrate that our Diff-Oracle outperforms existing generative methods in terms of image generation, further enhancing recognition accuracy. Source codes will be available.
Abstract（参考訳）: 骨文書の解読は中国考古学や文献学において重要な役割を担っている。しかし, オラクル文字画像が不足しているため, 極めて困難である。この問題を解決するために,拡散モデル(DM)に基づくDiff-Oracleを提案し,十分な制御可能なオラクル文字を生成する。テキストプロンプトに依存するほとんどのDMとは対照的に、生成プロセス中にスタイル情報を制御するためにスタイルエンコーダを組み込む。このエンコーダは、既存のオラクル文字画像からスタイルプロンプトを抽出し、スタイルの詳細をCLIPモデルからテキスト埋め込みフォーマットに変換する。 ControlNetにインスパイアされたコンテンツエンコーダは、コンテンツ画像から所望のコンテンツ情報をキャプチャし、文字グリフの忠実さを保証する。 diff-oracleを効果的に訓練するために,事前学習した画像から画像への翻訳モデルを用いて,ピクセルレベル対oracle文字画像(すなわちスタイルとコンテンツ画像)を得ることを提案する。 2つのベンチマークデータセットである Oracle-241 と OBC306 で実施された大規模な定性的および定量的実験は、Diff-Oracle が画像生成において既存の生成方法より優れており、認識精度がさらに向上していることを示している。ソースコードは利用可能だ。

関連論文リスト

OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography [58.790901822971094]
Oracle Bone Script (OBS) は古代文明の文化記録と知的表現をカプセル化している。約4,500のOBS文字が発見されたが、解読されたのは1,600文字程度である。本稿では,OracleFusionという新しい2段階セマンティックフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-26T08:56:07Z)
BD-Diff: Generative Diffusion Model for Image Deblurring on Unknown Domains with Blur-Decoupled Learning [55.21345354747609]
BD-Diffは、未知の領域における劣化性能を高めるために設計された生成拡散モデルである。構造表現とぼやけたパターン抽出器に2つのQ-Formerを別々に採用する。構造的特徴とぼやけたパターンを補完する再構成タスクを導入する。
論文参考訳（メタデータ） (2025-02-03T17:00:40Z)
OracleSage: Towards Unified Visual-Linguistic Understanding of Oracle Bone Scripts through Cross-Modal Knowledge Fusion [19.788896054132053]
中国最古の成熟した書記システムであるOracle bone script (OBS) は、自動認識において重大な課題を提起している。私たちは、階層的な視覚的理解とグラフベースのセマンティック推論を統合する新しいクロスモーダルフレームワークであるOracleSageを紹介します。
論文参考訳（メタデータ） (2024-11-26T19:26:06Z)
Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。 Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。 Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文参考訳（メタデータ） (2024-09-29T09:15:51Z)
Unsupervised Attention Regularization Based Domain Adaptation for Oracle Character Recognition [59.05212866862219]
オラクル文字の研究は中国考古学や文献学において重要な役割を担っている。実世界のスキャンされたオラクル文字の収集と注釈の難しさは、オラクル文字認識の発達を妨げる。我々は,ラベル付き手書きオラクル文字からラベル付きスキャンデータへの認識知識を伝達するための,新しい教師なしドメイン適応(UDA)手法を開発した。
論文参考訳（メタデータ） (2024-09-24T09:07:05Z)
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文参考訳（メタデータ） (2024-08-07T11:20:37Z)
Heracles: A Hybrid SSM-Transformer Model for High-Resolution Image and Time-Series Analysis [23.511807886483087]
Heraclesは、ローカルSSM、グローバルSSM、アテンションベースのトークンインタラクションモジュールを統合した、新しいSSMである。 Heraclesは、ImageNetデータセット上で84.5%のトップ1精度で最先端のパフォーマンスを達成する。ヘラクレスは、CIFAR-10、CIFAR-100、オックスフォード・フラワーズ、スタンフォード・カーズといったデータセットのトランスファー学習タスクを卓越している。
論文参考訳（メタデータ） (2024-03-26T19:29:21Z)
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (2022-06-22T01:11:29Z)
Oracle-MNIST: a Realistic Image Dataset for Benchmarking Machine Learning Algorithms [57.29464116557734]
我々は,古文字30,222文字の28ドルのグレースケール画像からなるOracle-MNISTデータセットを紹介した。トレーニングセットは完全に27,222枚の画像で構成され、テストセットにはクラス毎に300枚の画像が含まれている。
論文参考訳（メタデータ） (2022-05-19T09:57:45Z)
Unsupervised Structure-Texture Separation Network for Oracle Character Recognition [70.29024469395608]
オラクルの骨書は上海王朝の中国最古の書記体系であり、考古学や文献学に重要視されている。そこで本稿では, 連関, 変換, 適応, 認識のためのエンドツーエンド学習フレームワークである構造テクスチャ分離ネットワーク(STSN)を提案する。
論文参考訳（メタデータ） (2022-05-13T10:27:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。