論文の概要: Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias
- arxiv url: http://arxiv.org/abs/2503.06632v1
- Date: Sun, 09 Mar 2025 14:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:41.453467
- Title: Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias
- Title(参考訳): より正確なパーソナライズド画像生成を目指して : オーバーフィッティングと評価バイアスへの対応
- Authors: Mingxiao Li, Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens,
- Abstract要約: 画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。
現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。
トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
- 参考スコア(独自算出の注目度): 52.590072198551944
- License:
- Abstract: Personalized image generation via text prompts has great potential to improve daily life and professional work by facilitating the creation of customized visual content. The aim of image personalization is to create images based on a user-provided subject while maintaining both consistency of the subject and flexibility to accommodate various textual descriptions of that subject. However, current methods face challenges in ensuring fidelity to the text prompt while not overfitting to the training data. In this work, we introduce a novel training pipeline that incorporates an attractor to filter out distractions in training images, allowing the model to focus on learning an effective representation of the personalized subject. Moreover, current evaluation methods struggle due to the lack of a dedicated test set. The evaluation set-up typically relies on the training data of the personalization task to compute text-image and image-image similarity scores, which, while useful, tend to overestimate performance. Although human evaluations are commonly used as an alternative, they often suffer from bias and inconsistency. To address these issues, we curate a diverse and high-quality test set with well-designed prompts. With this new benchmark, automatic evaluation metrics can reliably assess model performance
- Abstract(参考訳): テキストプロンプトによるパーソナライズされた画像生成は、カスタマイズされたビジュアルコンテンツの作成を容易にすることで、日々の生活と専門的な作業を改善する大きな可能性を秘めている。
画像のパーソナライズの目的は、被験者の一貫性と柔軟性を両立させながら、ユーザが提供する被写体に基づく画像を作成することである。
しかし、現在の手法では、トレーニングデータに過度に適合しないまま、テキストプロンプトへの忠実さを確保するという課題に直面している。
そこで本研究では,トレーニング画像の歪みを除去するアトラクタを組み込んだ新しいトレーニングパイプラインを導入し,パーソナライズされた被験者の効果的な表現を学習することに集中できるようにする。
さらに, テストセットが不足しているため, 現在の評価手法は困難である。
評価セットは典型的には、テキスト画像と画像画像類似度スコアを計算するためにパーソナライズタスクのトレーニングデータに依存するが、これは有用ではあるがパフォーマンスを過大評価する傾向がある。
人間の評価は代替手段として一般的に使用されるが、バイアスや矛盾に悩まされることが多い。
これらの問題に対処するために、よく設計されたプロンプトで多種多様な高品質のテストセットをキュレートする。
この新しいベンチマークでは、自動評価指標がモデルの性能を確実に評価できる
関連論文リスト
- Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent [9.748808189341526]
有効なテキスト・ツー・イメージ(T2I)評価指標は以下のとおりである: 生成された画像がテキストのプロンプトと一致しないインスタンスを検出する。
抽出したシーングラフを用いて質問応答を行うための大規模言語モデル (LLM) に基づく手法を提案し, 生成された画像に対する評価スコアを用いたデータセットを作成する。
論文 参考訳(メタデータ) (2024-12-07T18:44:38Z) - TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - FaIRCoP: Facial Image Retrieval using Contrastive Personalization [43.293482565385055]
属性から顔画像を取得することは、顔認識や被疑者識別などの様々なシステムにおいて重要な役割を果たす。
既存の方法は、ユーザのメンタルイメージの特定の特徴を、提案した画像と比較することで実現している。
そこで本研究では,ユーザのフィードバックを用いて,対象画像と類似あるいは異な画像とラベル付けする手法を提案する。
論文 参考訳(メタデータ) (2022-05-28T09:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。