論文の概要: RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2504.17502v1
- Date: Thu, 24 Apr 2025 12:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.362174
- Title: RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation
- Title(参考訳): RefVNLI: 主題駆動型画像生成のスケーラブルな評価を目指して
- Authors: Aviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor,
- Abstract要約: RefVNLIは、テキストアライメントと主題保存の両方を単一の予測で評価する費用効率の指標である。
既存のベースラインを複数のベンチマークや対象カテゴリで上回るか、あるいは一致させる。
また、あまり知られていない概念に優れ、人間の好みと87%以上の精度で一致している。
- 参考スコア(独自算出の注目度): 27.336251972097077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subject-driven text-to-image (T2I) generation aims to produce images that align with a given textual description, while preserving the visual identity from a referenced subject image. Despite its broad downstream applicability -- ranging from enhanced personalization in image generation to consistent character representation in video rendering -- progress in this field is limited by the lack of reliable automatic evaluation. Existing methods either assess only one aspect of the task (i.e., textual alignment or subject preservation), misalign with human judgments, or rely on costly API-based evaluation. To address this, we introduce RefVNLI, a cost-effective metric that evaluates both textual alignment and subject preservation in a single prediction. Trained on a large-scale dataset derived from video-reasoning benchmarks and image perturbations, RefVNLI outperforms or matches existing baselines across multiple benchmarks and subject categories (e.g., \emph{Animal}, \emph{Object}), achieving up to 6.4-point gains in textual alignment and 8.5-point gains in subject consistency. It also excels with lesser-known concepts, aligning with human preferences at over 87\% accuracy.
- Abstract(参考訳): オブジェクト駆動型テキスト・トゥ・イメージ(T2I)生成は、参照対象画像から視覚的アイデンティティを保ちながら、与えられたテキスト記述と整合した画像を作成することを目的としている。
画像生成におけるパーソナライゼーションの強化からビデオレンダリングにおける一貫した文字表現に至るまで、幅広いダウンストリーム適用性にもかかわらず、この分野での進歩は信頼性の高い自動評価の欠如によって制限されている。
既存の手法では、タスクの1つの側面(テキストのアライメントや主題の保存など)のみを評価したり、人間の判断と不一致したり、APIベースの高価な評価に依存したりする。
そこで本稿では,テキストアライメントと主観的保存の両方を評価する費用効率の指標であるRefVNLIを紹介する。
RefVNLIはビデオ推論ベンチマークと画像摂動から導かれる大規模なデータセットに基づいて、複数のベンチマークや対象カテゴリ(例: \emph{Animal}, \emph{Object})で既存のベースラインを上回り、テキストアライメントで最大6.4ポイント、被写体一貫性で最大8.5ポイントのゲインを達成する。
また、あまり知られていない概念を抜いて、人間の好みを87パーセント以上精度で調整する。
関連論文リスト
- Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。
現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。
トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-09T14:14:02Z) - Visual question answering based evaluation metrics for text-to-image generation [7.105786967332924]
本稿では,各オブジェクトに対する入力テキストと生成画像のアライメントを評価するための新しい評価指標を提案する。
実験結果から,提案手法はより微細なテキスト画像のアライメントと画質を同時に評価できる優れた指標であることがわかった。
論文 参考訳(メタデータ) (2024-11-15T13:32:23Z) - Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Holistic Evaluation for Interleaved Text-and-Image Generation [19.041251355695973]
我々はインターリーブドベンチ(InterleavedBench)について紹介する。
また、GPT-4oをベースとした強力な基準フリーメトリックであるInterleavedEvalを提案し、正確で説明可能な評価を行う。
論文 参考訳(メタデータ) (2024-06-20T18:07:19Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual
and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。
高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。
これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文 参考訳(メタデータ) (2023-08-16T17:26:47Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文 参考訳(メタデータ) (2023-07-10T17:54:57Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。