論文の概要: Culture-TRIP: Culturally-Aware Text-to-Image Generation with Iterative Prompt Refinment
- arxiv url: http://arxiv.org/abs/2502.16902v1
- Date: Mon, 24 Feb 2025 06:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:38.736242
- Title: Culture-TRIP: Culturally-Aware Text-to-Image Generation with Iterative Prompt Refinment
- Title(参考訳): Culture-TRIP: 反復的プロンプト精錬による文化的に認識されたテキスト・画像生成
- Authors: Suchae Jeong, Inseong Choi, Youngsik Yun, Jihie Kim,
- Abstract要約: 反復的プロンプトリファインメント(Culture-TRIP)を用いた文化的テキスト・画像生成手法を提案する。
提案手法は, カルチャー名詞に関連する文化的文脈と視覚的詳細を抽出する。
一連の文化的基準と大きな言語モデルに基づいて、反復的にプロンプトを洗練・評価する。
- 参考スコア(独自算出の注目度): 2.089922606370409
- License:
- Abstract: Text-to-Image models, including Stable Diffusion, have significantly improved in generating images that are highly semantically aligned with the given prompts. However, existing models may fail to produce appropriate images for the cultural concepts or objects that are not well known or underrepresented in western cultures, such as `hangari' (Korean utensil). In this paper, we propose a novel approach, Culturally-Aware Text-to-Image Generation with Iterative Prompt Refinement (Culture-TRIP), which refines the prompt in order to improve the alignment of the image with such culture nouns in text-to-image models. Our approach (1) retrieves cultural contexts and visual details related to the culture nouns in the prompt and (2) iteratively refines and evaluates the prompt based on a set of cultural criteria and large language models. The refinement process utilizes the information retrieved from Wikipedia and the Web. Our user survey, conducted with 66 participants from eight different countries demonstrates that our proposed approach enhances the alignment between the images and the prompts. In particular, C-TRIP demonstrates improved alignment between the generated images and underrepresented culture nouns. Resource can be found at https://shane3606.github.io/Culture-TRIP.
- Abstract(参考訳): 安定拡散を含むテキスト間画像モデルは、与えられたプロンプトに高度にセマンティックに整合した画像の生成において、大幅に改善されている。
しかし、既存のモデルでは「張り」など西欧の文化であまり知られていない、あるいはあまり知られていない文化概念や物体の適切なイメージが得られない場合がある。
本稿では,テキスト・ツー・イメージモデルにおいて,画像とそのような文化名詞との整合性を改善するために,反復的プロンプト・リファインメント(Culture-TRIP)を用いた文化的テキスト・ツー・イメージ生成手法を提案する。
提案手法は,(1)アクティベートにおける文化名詞に関連する文化的文脈や視覚的詳細を検索し,(2)文化的基準と大規模言語モデルに基づいて反復的に改良・評価する。
精錬プロセスは、ウィキペディアとWebから取得した情報を利用する。
8カ国から66名の参加者を対象に実施したユーザ調査では,提案手法が画像とプロンプトの整合性を高めていることが示された。
特に、C-TRIPは生成した画像と表現不足のカルチャー名詞のアライメントを改善した。
リソースはhttps://shane3606.github.io/Culture-TRIPで見ることができる。
関連論文リスト
- Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。
これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。
我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文 参考訳(メタデータ) (2025-02-13T03:05:42Z) - Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Poetry2Image: An Iterative Correction Framework for Images Generated from Chinese Classical Poetry [7.536700229966157]
Poetry2Imageは、漢詩から生成された画像の反復的な補正フレームワークである。
提案手法は70.63%の平均要素完全性を実現し,直接画像生成よりも25.56%向上した。
論文 参考訳(メタデータ) (2024-06-15T19:45:08Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Towards Equitable Representation in Text-to-Image Synthesis Models with
the Cross-Cultural Understanding Benchmark (CCUB) Dataset [8.006068032606182]
本稿では,小さいが文化的にキュレートされたデータセットを用いて,テキストと画像の合成を文化的に認識するプライミング手法を提案する。
実験の結果, テキストと画像の両方を用いたプライミングは, 文化的関連性の向上と, 生成画像の攻撃性低下に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-28T03:10:33Z) - DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter [63.622879199281705]
いくつかの例に基づく画像生成手法が提案されており、例えば、いくつかの入力参照の健全な特徴を吸収して新しい概念を生成する。
本研究では,DreamArtistというシンプルなフレームワークを提案する。このフレームワークは,事前学習した拡散モデルに対して,新しい正負の学習戦略を採用する。
我々は,画像類似性(忠実度)と多様性,生成制御性,スタイルのクローニングから,幅広い実験を行い,提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-11-21T10:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。