論文の概要: Poetry2Image: An Iterative Correction Framework for Images Generated from Chinese Classical Poetry
- arxiv url: http://arxiv.org/abs/2407.06196v1
- Date: Sat, 15 Jun 2024 19:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 14:07:46.876919
- Title: Poetry2Image: An Iterative Correction Framework for Images Generated from Chinese Classical Poetry
- Title(参考訳): Poetry2Image: 中国語の古典詩から生成された画像の反復補正フレームワーク
- Authors: Jing Jiang, Yiran Ling, Binzhu Li, Pengxiang Li, Junming Piao, Yu Zhang,
- Abstract要約: Poetry2Imageは、漢詩から生成された画像の反復的な補正フレームワークである。
提案手法は70.63%の平均要素完全性を実現し,直接画像生成よりも25.56%向上した。
- 参考スコア(独自算出の注目度): 7.536700229966157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation models often struggle with key element loss or semantic confusion in tasks involving Chinese classical poetry.Addressing this issue through fine-tuning models needs considerable training costs. Additionally, manual prompts for re-diffusion adjustments need professional knowledge. To solve this problem, we propose Poetry2Image, an iterative correction framework for images generated from Chinese classical poetry. Utilizing an external poetry dataset, Poetry2Image establishes an automated feedback and correction loop, which enhances the alignment between poetry and image through image generation models and subsequent re-diffusion modifications suggested by large language models (LLM). Using a test set of 200 sentences of Chinese classical poetry, the proposed method--when integrated with five popular image generation models--achieves an average element completeness of 70.63%, representing an improvement of 25.56% over direct image generation. In tests of semantic correctness, our method attains an average semantic consistency of 80.09%. The study not only promotes the dissemination of ancient poetry culture but also offers a reference for similar non-fine-tuning methods to enhance LLM generation.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーション・モデルは、漢詩に関わる課題において、重要な要素損失や意味的混乱に苦しむことが多く、微調整モデルによるこの問題の適応にはかなりの訓練コストが必要である。
さらに、再拡散調整のための手動プロンプトは専門的な知識を必要とする。
この問題を解決するために,漢詩から生成された画像の反復補正フレームワークであるPoetry2Imageを提案する。
Poetry2Imageは、外部の詩データセットを利用することで、自動的なフィードバックと修正ループを確立し、画像生成モデルを通じて詩と画像のアライメントを高め、その後、大きな言語モデル(LLM)によって提案される再拡散修正を行う。
提案手法は、漢詩200文からなるテストセットを用いて、5つの人気画像生成モデルを統合することで、平均的要素完全性70.63%を達成し、直接画像生成よりも25.56%向上したことを示す。
意味的正確性テストでは,平均的意味的一貫性が80.09%に達する。
この研究は、古代の詩文化の普及を促進するだけでなく、LLM生成を促進するための類似の非微調整手法への言及も提供する。
関連論文リスト
- Poetry in Pixels: Prompt Tuning for Poem Image Generation via Diffusion Models [18.293592213622183]
本稿では,詩の意味を視覚的に表現する画像を生成するためのPoemToPixelフレームワークを提案する。
提案手法は,画像生成フレームワークに即時チューニングという概念を取り入れ,得られた画像が詩的な内容と密接に一致することを保証する。
詩集の多様性を拡大するために,1001人の子どもの詩とイメージからなる新しいマルチモーダルデータセットであるMiniPoを紹介する。
論文 参考訳(メタデータ) (2025-01-10T10:26:54Z) - Improving Image Captioning by Mimicking Human Reformulation Feedback at Inference-time [35.71703501731082]
そこで我々は,人間のアノテーションに基づくリフォームフィードバックを模倣するために,新しいタイプのフィードバック(キャプション改訂)とモデルを訓練する。
本手法は,画像キャプションモデル自体のトレーニングを必要としないため,計算作業の大幅な削減が要求される。
既存の画像キャプションモデルの推論フェーズに、このデータに基づいてトレーニングされた再構成モデルを組み込むことで、キャプションの改善が期待できる。
論文 参考訳(メタデータ) (2025-01-08T14:00:07Z) - Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Prose2Poem: The Blessing of Transformers in Translating Prose to Persian
Poetry [2.15242029196761]
我々は、古代ペルシア詩に散文を翻訳する新しいニューラル・マシン・トランスレーション(NMT)アプローチを導入する。
我々は、初期翻訳を得るために、スクラッチからトランスフォーマーモデルを訓練し、最終翻訳を得るためにBERTの様々なバリエーションを事前訓練した。
論文 参考訳(メタデータ) (2021-09-30T09:04:11Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - Generating Chinese Poetry from Images via Concrete and Abstract
Information [23.690384629376005]
具体的なキーワードを各行の詩行に明示的な方法で埋め込むことができる埋め込み型漢詩生成モデルを提案する。
また、トレーニング中に非並列データを使用し、別の画像データセットと詩データセットを構築して、フレームワーク内のさまざまなコンポーネントをトレーニングします。
自動評価と人的評価の両方の結果から, 画質を損なうことなく, 画像との整合性の良い詩を生成できることが示唆された。
論文 参考訳(メタデータ) (2020-03-24T11:17:20Z) - Generating Major Types of Chinese Classical Poetry in a Uniformed
Framework [88.57587722069239]
GPT-2に基づく漢詩の主要なタイプを生成するフレームワークを提案する。
予備的な結果は、この強化されたモデルが、形も内容も質の高い大型漢詩を生成できることを示している。
論文 参考訳(メタデータ) (2020-03-13T14:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。