論文の概要: AGTGAN: Unpaired Image Translation for Photographic Ancient Character
Generation
- arxiv url: http://arxiv.org/abs/2303.07012v1
- Date: Mon, 13 Mar 2023 11:18:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 15:26:46.433625
- Title: AGTGAN: Unpaired Image Translation for Photographic Ancient Character
Generation
- Title(参考訳): agtgan: 写真古代文字生成のための非対訳画像
- Authors: Hongxiang Huang, Daihui Yang, Gang Dai, Zhen Han, Yuyi Wang, Kin-Man
Lam, Fan Yang, Shuangping Huang, Yongge Liu, Mengchao He
- Abstract要約: 本稿では,AGTGAN と呼ばれる非教師付き生成敵ネットワークを提案する。
グローバルなグリフ形状と局所的なグリフ形状のモデリングにより,多様なグリフと現実的なテクスチャを持つキャラクタを生成することができる。
得られた画像から,最大写真オラクル骨キャラクタデータセットを用いた実験により,分類精度を最大16.34%向上させることができた。
- 参考スコア(独自算出の注目度): 27.77329906930072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of ancient writings has great value for archaeology and philology.
Essential forms of material are photographic characters, but manual
photographic character recognition is extremely time-consuming and
expertise-dependent. Automatic classification is therefore greatly desired.
However, the current performance is limited due to the lack of annotated data.
Data generation is an inexpensive but useful solution for data scarcity.
Nevertheless, the diverse glyph shapes and complex background textures of
photographic ancient characters make the generation task difficult, leading to
the unsatisfactory results of existing methods. In this paper, we propose an
unsupervised generative adversarial network called AGTGAN. By the explicit
global and local glyph shape style modeling followed by the stroke-aware
texture transfer, as well as an associate adversarial learning mechanism, our
method can generate characters with diverse glyphs and realistic textures. We
evaluate our approach on the photographic ancient character datasets, e.g.,
OBC306 and CSDD. Our method outperforms the state-of-the-art approaches in
various metrics and performs much better in terms of the diversity and
authenticity of generated samples. With our generated images, experiments on
the largest photographic oracle bone character dataset show that our method can
achieve a significant increase in classification accuracy, up to 16.34%.
- Abstract(参考訳): 古代の文献の研究は考古学や文献学に非常に価値がある。
基本的な素材は写真キャラクタであるが、手動による写真キャラクタ認識は非常に時間と専門性に依存している。
そのため、自動分類が望まれる。
しかし、注釈データがないため、現在の性能は限られている。
データ生成は、データ不足に対する安価だが有用なソリューションである。
それでも、写真古文字の多様なグリフ形状や複雑な背景テクスチャは、生成作業を困難にし、既存の手法の満足できない結果をもたらす。
本稿では,AGTGAN と呼ばれる非教師付き生成敵ネットワークを提案する。
球形および局所的なグリフ形状をモデル化し,その後にストローク対応テクスチャ転送と,対応する対角学習機構により,多様なグリフと現実的なテクスチャを持つキャラクタを生成することができる。
我々は,写真古代文字データセット,例えば obc306 と csdd のアプローチを評価した。
本手法は,様々な測定値において最先端のアプローチを上回り,生成したサンプルの多様性と信頼性の面ではるかに優れている。
私たちの生成した画像から,最大16.34%の精度で分類精度を向上できることを示す,最大の写真oracle bone character dataset実験を行った。
関連論文リスト
- Deep Image Composition Meets Image Forgery [0.0]
画像偽造は長年研究されてきた。
ディープラーニングモデルは、トレーニングのために大量のラベル付きデータを必要とする。
本研究では,画像合成深層学習モデルを用いて,実生活における操作の質に近いスプライシング画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T17:54:37Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and
Multi-Source Supervision [5.517240672957627]
本稿では,失った歴史的物体を視覚的形状に正確に反映する,知識を意識した新しい人工物画像合成手法を提案する。
既存の手法と比較して,提案手法は文書に含まれる暗黙の細部や歴史的知識とよく一致した高品質なアーティファクト画像を生成する。
論文 参考訳(メタデータ) (2023-12-13T11:03:07Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Detecting Generated Images by Real Images Only [64.12501227493765]
既存の画像検出手法は、生成画像中の視覚的アーティファクトを検出したり、大規模なトレーニングによって、実画像と生成画像の両方から識別的特徴を学習する。
本稿では,新たな視点から生成した画像検出問題にアプローチする。
実画像の共通性を見つけ、特徴空間内の密接な部分空間にマッピングすることで、生成した画像は生成モデルに関係なくサブ空間の外側に投影される。
論文 参考訳(メタデータ) (2023-11-02T03:09:37Z) - Fill-Up: Balancing Long-Tailed Data with Generative Models [11.91669614267993]
本論文では,テクスチュアル・インバージョンを用いた長期状況のための画像合成パイプラインを提案する。
テキスト反転されたテキストトークンから生成された画像は、実領域と効果的に一致していることを示す。
また,不均衡データを合成画像で埋め込むことにより,実世界のデータ不均衡のシナリオを緩和できることを示す。
論文 参考訳(メタデータ) (2023-06-12T16:01:20Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。