論文の概要: Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods
- arxiv url: http://arxiv.org/abs/2312.06116v1
- Date: Mon, 11 Dec 2023 04:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:51:09.663938
- Title: Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods
- Title(参考訳): stellar:人間中心のパーソナライズされたテキストから画像への方法の体系的評価
- Authors: Panos Achlioptas, Alexandros Benetatos, Iordanis Fostiropoulos,
Dimitris Skourtis
- Abstract要約: 我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
- 参考スコア(独自算出の注目度): 52.806258774051216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we systematically study the problem of personalized
text-to-image generation, where the output image is expected to portray
information about specific human subjects. E.g., generating images of oneself
appearing at imaginative places, interacting with various items, or engaging in
fictional activities. To this end, we focus on text-to-image systems that input
a single image of an individual to ground the generation process along with
text describing the desired visual context. Our first contribution is to fill
the literature gap by curating high-quality, appropriate data for this task.
Namely, we introduce a standardized dataset (Stellar) that contains
personalized prompts coupled with images of individuals that is an order of
magnitude larger than existing relevant datasets and where rich semantic
ground-truth annotations are readily available. Having established Stellar to
promote cross-systems fine-grained comparisons further, we introduce a rigorous
ensemble of specialized metrics that highlight and disentangle fundamental
properties such systems should obey. Besides being intuitive, our new metrics
correlate significantly more strongly with human judgment than currently used
metrics on this task. Last but not least, drawing inspiration from the recent
works of ELITE and SDXL, we derive a simple yet efficient, personalized
text-to-image baseline that does not require test-time fine-tuning for each
subject and which sets quantitatively and in human trials a new SoTA. For more
information, please visit our project's website:
https://stellar-gen-ai.github.io/.
- Abstract(参考訳): 本研究では,個人化されたテキスト・画像生成の問題点を体系的に研究し,特定の被験者に関する情報を出力画像で表現することを期待する。
例えば、想像上の場所に現れる自分のイメージを生成したり、様々なアイテムと対話したり、架空の活動に従事したりする。
この目的を達成するために,個々の画像を1つ入力して生成プロセスを接地するテキスト・ツー・イメージシステムと,所望の視覚状況を記述するテキストに焦点をあてる。
私たちの最初の貢献は、このタスクのために高品質で適切なデータをキュレートすることで、文学のギャップを埋めることです。
すなわち、パーソナライズされたプロンプトを含む標準化されたデータセット(Stellar)と、既存の関連するデータセットよりも桁違いの大きさの個人画像と、リッチなセマンティック・ベース・トゥルース・アノテーションが容易に利用できるようにした。
システム間の比較をさらにきめ細かいものにするためにStellarを確立したので、そのようなシステムが従うべき基本特性を強調・歪曲する専門的なメトリクスの厳密なアンサンブルを導入する。
直感的であることに加えて、我々の新しいメトリクスは、このタスクで現在使われているメトリクスよりも、人間の判断と強く相関している。
最後に、eliteとsdxlの最近の作品から着想を得て、私たちは、テスト時間の微調整を必要としない、シンプルで効率的でパーソナライズされたテキストから画像へのベースラインを導出します。
詳細については、プロジェクトのwebサイト(https://stellar-gen-ai.github.io/)をご覧ください。
関連論文リスト
- SDFD: Building a Versatile Synthetic Face Image Dataset with Diverse Attributes [14.966767182001755]
顔の多様性の幅広いスペクトルをキャプチャする合成顔画像データセットを生成する手法を提案する。
具体的には、我々のアプローチは人口統計学とバイオメトリックスを統合するだけでなく、メイクアップ、ヘアスタイル、アクセサリーといった非永続的な特徴も統合しています。
これらのプロンプトは、高品質なリアル画像の包括的なデータセットを生成する際に、最先端のテキスト・ツー・イメージモデルを導く。
論文 参考訳(メタデータ) (2024-04-26T08:51:31Z) - InstructBooth: Instruction-following Personalized Text-to-Image
Generation [30.89054609185801]
InstructBoothは、パーソナライズされたテキスト・ツー・イメージモデルにおける画像テキストアライメントを強化するために設計された新しい方法である。
提案手法はまず,一意の識別子を用いて,少数の被写体固有の画像でテキスト・ツー・イメージ・モデルをパーソナライズする。
パーソナライズ後、強化学習を用いてパーソナライズされたテキスト・ツー・イメージモデルを微調整し、画像・テキストのアライメントを定量化する報酬を最大化する。
論文 参考訳(メタデータ) (2023-12-04T20:34:46Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。