論文の概要: Poetry2Image: An Iterative Correction Framework for Images Generated from Chinese Classical Poetry
- arxiv url: http://arxiv.org/abs/2407.06196v1
- Date: Sat, 15 Jun 2024 19:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 14:07:46.876919
- Title: Poetry2Image: An Iterative Correction Framework for Images Generated from Chinese Classical Poetry
- Title(参考訳): Poetry2Image: 中国語の古典詩から生成された画像の反復補正フレームワーク
- Authors: Jing Jiang, Yiran Ling, Binzhu Li, Pengxiang Li, Junming Piao, Yu Zhang,
- Abstract要約: Poetry2Imageは、漢詩から生成された画像の反復的な補正フレームワークである。
提案手法は70.63%の平均要素完全性を実現し,直接画像生成よりも25.56%向上した。
- 参考スコア(独自算出の注目度): 7.536700229966157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation models often struggle with key element loss or semantic confusion in tasks involving Chinese classical poetry.Addressing this issue through fine-tuning models needs considerable training costs. Additionally, manual prompts for re-diffusion adjustments need professional knowledge. To solve this problem, we propose Poetry2Image, an iterative correction framework for images generated from Chinese classical poetry. Utilizing an external poetry dataset, Poetry2Image establishes an automated feedback and correction loop, which enhances the alignment between poetry and image through image generation models and subsequent re-diffusion modifications suggested by large language models (LLM). Using a test set of 200 sentences of Chinese classical poetry, the proposed method--when integrated with five popular image generation models--achieves an average element completeness of 70.63%, representing an improvement of 25.56% over direct image generation. In tests of semantic correctness, our method attains an average semantic consistency of 80.09%. The study not only promotes the dissemination of ancient poetry culture but also offers a reference for similar non-fine-tuning methods to enhance LLM generation.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーション・モデルは、漢詩に関わる課題において、重要な要素損失や意味的混乱に苦しむことが多く、微調整モデルによるこの問題の適応にはかなりの訓練コストが必要である。
さらに、再拡散調整のための手動プロンプトは専門的な知識を必要とする。
この問題を解決するために,漢詩から生成された画像の反復補正フレームワークであるPoetry2Imageを提案する。
Poetry2Imageは、外部の詩データセットを利用することで、自動的なフィードバックと修正ループを確立し、画像生成モデルを通じて詩と画像のアライメントを高め、その後、大きな言語モデル(LLM)によって提案される再拡散修正を行う。
提案手法は、漢詩200文からなるテストセットを用いて、5つの人気画像生成モデルを統合することで、平均的要素完全性70.63%を達成し、直接画像生成よりも25.56%向上したことを示す。
意味的正確性テストでは,平均的意味的一貫性が80.09%に達する。
この研究は、古代の詩文化の普及を促進するだけでなく、LLM生成を促進するための類似の非微調整手法への言及も提供する。
関連論文リスト
- Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - A Method to Judge the Style of Classical Poetry Based on Pre-trained
Model [13.899056358137287]
本論文は、現在最も完璧な漢詩のデータセットを構築し、このデータセットに基づいて、BART-poem事前学習モデルを訓練し、一般に適用可能な詩風判断法を推し進めている。
実験の結果、テストされた詩文の判断結果は、基本的には以前の王朝の批判者による結論と一致し、清州氏の前衛的な判断を検証し、唐宋の詩文認識の課題を解き明かした。
論文 参考訳(メタデータ) (2022-11-09T03:11:15Z) - Prose2Poem: The Blessing of Transformers in Translating Prose to Persian
Poetry [2.15242029196761]
我々は、古代ペルシア詩に散文を翻訳する新しいニューラル・マシン・トランスレーション(NMT)アプローチを導入する。
我々は、初期翻訳を得るために、スクラッチからトランスフォーマーモデルを訓練し、最終翻訳を得るためにBERTの様々なバリエーションを事前訓練した。
論文 参考訳(メタデータ) (2021-09-30T09:04:11Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - Generating Chinese Poetry from Images via Concrete and Abstract
Information [23.690384629376005]
具体的なキーワードを各行の詩行に明示的な方法で埋め込むことができる埋め込み型漢詩生成モデルを提案する。
また、トレーニング中に非並列データを使用し、別の画像データセットと詩データセットを構築して、フレームワーク内のさまざまなコンポーネントをトレーニングします。
自動評価と人的評価の両方の結果から, 画質を損なうことなく, 画像との整合性の良い詩を生成できることが示唆された。
論文 参考訳(メタデータ) (2020-03-24T11:17:20Z) - Generating Major Types of Chinese Classical Poetry in a Uniformed
Framework [88.57587722069239]
GPT-2に基づく漢詩の主要なタイプを生成するフレームワークを提案する。
予備的な結果は、この強化されたモデルが、形も内容も質の高い大型漢詩を生成できることを示している。
論文 参考訳(メタデータ) (2020-03-13T14:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。