論文の概要: Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and
Multi-Source Supervision
- arxiv url: http://arxiv.org/abs/2312.08056v1
- Date: Wed, 13 Dec 2023 11:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 15:48:15.223423
- Title: Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and
Multi-Source Supervision
- Title(参考訳): LLMプロンプティングとマルチソーススーパービジョンを用いた知識認識人工物画像合成
- Authors: Shengguang Wu, Zhenglun Chen, Qi Su
- Abstract要約: 本稿では,失った歴史的物体を視覚的形状に正確に反映する,知識を意識した新しい人工物画像合成手法を提案する。
既存の手法と比較して,提案手法は文書に含まれる暗黙の細部や歴史的知識とよく一致した高品質なアーティファクト画像を生成する。
- 参考スコア(独自算出の注目度): 5.517240672957627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ancient artifacts are an important medium for cultural preservation and
restoration. However, many physical copies of artifacts are either damaged or
lost, leaving a blank space in archaeological and historical studies that calls
for artifact image generation techniques. Despite the significant advancements
in open-domain text-to-image synthesis, existing approaches fail to capture the
important domain knowledge presented in the textual description, resulting in
errors in recreated images such as incorrect shapes and patterns. In this
paper, we propose a novel knowledge-aware artifact image synthesis approach
that brings lost historical objects accurately into their visual forms. We use
a pretrained diffusion model as backbone and introduce three key techniques to
enhance the text-to-image generation framework: 1) we construct prompts with
explicit archaeological knowledge elicited from large language models (LLMs);
2) we incorporate additional textual guidance to correlated historical
expertise in a contrastive manner; 3) we introduce further visual-semantic
constraints on edge and perceptual features that enable our model to learn more
intricate visual details of the artifacts. Compared to existing approaches, our
proposed model produces higher-quality artifact images that align better with
the implicit details and historical knowledge contained within written
documents, thus achieving significant improvements across automatic metrics and
in human evaluation. Our code and data are available at
https://github.com/danielwusg/artifact_diffusion.
- Abstract(参考訳): 古代の遺物は文化保存と修復の重要な媒体である。
しかし、アーティファクトの物理的コピーの多くは損傷または失われており、アーティファクト画像生成技術を求める考古学的・歴史的研究において空白の空間を残している。
オープンドメインのテキストから画像への合成の大幅な進歩にもかかわらず、既存のアプローチではテキスト記述で示される重要なドメイン知識を捉えられず、不正な形状やパターンのような再生成された画像にエラーが発生する。
本稿では,失われた歴史オブジェクトを視覚的形状に正確に反映する,知識対応のアーティファクト画像合成手法を提案する。
事前学習した拡散モデルをバックボーンとして使用し、テキスト・画像生成フレームワークを強化するために3つの重要なテクニックを導入します。
1)大型言語モデル(LLM)から派生した明示的な考古学的知識を持つプロンプトを構築する。
2) 関連した歴史的専門知識を対比的に追加のテキストガイダンスを取り入れる。
3) エッジや知覚的特徴に対する視覚的セマンティックな制約を導入することで, モデルがより複雑な視覚的詳細を学習できるようにする。
既存の手法と比較して,提案手法は文書に含まれる暗黙の細部や歴史的知識と整合し,自動計測や人的評価において顕著な改善を達成できる,高品質なアーティファクト画像を生成する。
私たちのコードとデータはhttps://github.com/danielwusg/artifact_diffusionで入手できます。
関連論文リスト
- ArtiFade: Learning to Generate High-quality Subject from Blemished Images [10.112125529627157]
ArtiFadeは、事前トレーニングされたテキスト-画像モデルの微調整を利用して、アーティファクトを削除する。
ArtiFadeはまた、拡散モデルに固有のオリジナルの生成機能の保存も保証している。
論文 参考訳(メタデータ) (2024-09-05T17:57:59Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z) - ScrollTimes: Tracing the Provenance of Paintings as a Window into
History [35.605930297790465]
考古学や美術史において、文化遺産の遺物、遺産の相続と保存の研究が重要な意味を持つ。
美術史家らと共同で、歴史資料の豊富な資料を提供する伝統的な中国の絵画形式である「ハンズクロル」を調査した。
本報告では,ハンドクロルのための「バイオグラフィー」を作成するために,アーティファクト,コンテキスト,および証明レベルを包含する3段階の方法論を提案する。
論文 参考訳(メタデータ) (2023-06-15T03:38:09Z) - AGTGAN: Unpaired Image Translation for Photographic Ancient Character
Generation [27.77329906930072]
本稿では,AGTGAN と呼ばれる非教師付き生成敵ネットワークを提案する。
グローバルなグリフ形状と局所的なグリフ形状のモデリングにより,多様なグリフと現実的なテクスチャを持つキャラクタを生成することができる。
得られた画像から,最大写真オラクル骨キャラクタデータセットを用いた実験により,分類精度を最大16.34%向上させることができた。
論文 参考訳(メタデータ) (2023-03-13T11:18:41Z) - ArcAid: Analysis of Archaeological Artifacts using Drawings [23.906975910478142]
考古学はコンピュータビジョンの興味深い分野である。
ラベル付きデータに不足するだけでなく、高度に混ざったデータに悩まされる。
本稿では,考古学的遺物の画像の分類と検索のための,新しい半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T11:57:01Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。