論文の概要: Deciphering Personalization: Towards Fine-Grained Explainability in Natural Language for Personalized Image Generation Models
- arxiv url: http://arxiv.org/abs/2511.01932v1
- Date: Sun, 02 Nov 2025 16:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.598289
- Title: Deciphering Personalization: Towards Fine-Grained Explainability in Natural Language for Personalized Image Generation Models
- Title(参考訳): パーソナライズを解読する:パーソナライズされた画像生成モデルのための自然言語におけるきめ細かい説明可能性を目指して
- Authors: Haoming Wang, Wei Gao,
- Abstract要約: FineXLは、複数の画像生成モデルに異なるパーソナライズシナリオを適用することで、説明可能性の精度を56%向上させることができる。
本稿では,パーソナライズされた画像生成モデルのための天然のtextbfLanguage における textbfFine-fine etextbfXplainability に対する textbfFineXL という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 9.722829662835233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image generation models are usually personalized in practical uses in order to better meet the individual users' heterogeneous needs, but most personalized models lack explainability about how they are being personalized. Such explainability can be provided via visual features in generated images, but is difficult for human users to understand. Explainability in natural language is a better choice, but the existing approaches to explainability in natural language are limited to be coarse-grained. They are unable to precisely identify the multiple aspects of personalization, as well as the varying levels of personalization in each aspect. To address such limitation, in this paper we present a new technique, namely \textbf{FineXL}, towards \textbf{Fine}-grained e\textbf{X}plainability in natural \textbf{L}anguage for personalized image generation models. FineXL can provide natural language descriptions about each distinct aspect of personalization, along with quantitative scores indicating the level of each aspect of personalization. Experiment results show that FineXL can improve the accuracy of explainability by 56\%, when different personalization scenarios are applied to multiple types of image generation models.
- Abstract(参考訳): 画像生成モデルは、通常、個人の不均一なニーズを満たすために、実用的な用途でパーソナライズされるが、ほとんどのパーソナライズされたモデルは、どのようにパーソナライズされているかを説明することができない。
このような説明性は、生成画像の視覚的特徴を通して提供することができるが、人間の理解は困難である。
自然言語における説明可能性の方がよいが、自然言語における説明可能性への既存のアプローチは、粗い粒度に制限されている。
パーソナライゼーションの複数の側面を正確に識別することはできないし、パーソナライゼーションのレベルも様々である。
このような制限に対処するため,本論文では,パーソナライズされた画像生成モデルに対する自然な \textbf{FineXL} 文における e\textbf{Fine}-グラニュアルな e\textbf{X} 記述性に対して,新しい手法,すなわち \textbf{FineXL} を提案する。
FineXLは、パーソナライゼーションの各側面に関する自然言語記述と、パーソナライゼーションの各側面のレベルを示す定量的スコアを提供する。
実験の結果,複数の画像生成モデルに異なるパーソナライズシナリオを適用すると,FinXLは説明可能性の精度を56倍に向上できることがわかった。
関連論文リスト
- Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - PALP: Prompt Aligned Personalization of Text-to-Image Models [68.91005384187348]
既存のパーソナライズ手法は、パーソナライズ能力や複雑なプロンプトへのアライメントを損なう。
本稿では,この問題に対処するエフィンスル・プロンプトのためのパーソナライズ手法に着目した新しいアプローチを提案する。
本手法はテキストアライメントの改善に優れ,複雑かつ複雑なプロンプトによる画像作成を可能にする。
論文 参考訳(メタデータ) (2024-01-11T18:35:33Z) - InstructBooth: Instruction-following Personalized Text-to-Image
Generation [30.89054609185801]
InstructBoothは、パーソナライズされたテキスト・ツー・イメージモデルにおける画像テキストアライメントを強化するために設計された新しい方法である。
提案手法はまず,一意の識別子を用いて,少数の被写体固有の画像でテキスト・ツー・イメージ・モデルをパーソナライズする。
パーソナライズ後、強化学習を用いてパーソナライズされたテキスト・ツー・イメージモデルを微調整し、画像・テキストのアライメントを定量化する報酬を最大化する。
論文 参考訳(メタデータ) (2023-12-04T20:34:46Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。