論文の概要: Evaluating Attribute Confusion in Fashion Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2507.07079v1
- Date: Wed, 09 Jul 2025 17:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.714143
- Title: Evaluating Attribute Confusion in Fashion Text-to-Image Generation
- Title(参考訳): ファッションテキスト・画像生成における属性の融合の評価
- Authors: Ziyue Liu, Federico Girella, Yiming Wang, Davide Talon,
- Abstract要約: 我々は、エンティティ属性のセマンティクスを評価するために、VQA(Visual Question Answering)ローカライズ戦略を構築した。
本稿では,視覚的ローカライゼーションとVQAを組み合わせた新しい自動測度であるLocalized VQAScore(L-VQAScore)を提案する。
コンポジションアライメントに挑戦するシナリオを特徴とする新たなキュレートデータセットでは、L-VQAScoreは人間の判断と相関して最先端のT2I評価手法より優れている。
- 参考スコア(独自算出の注目度): 7.376363744616336
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the rapid advances in Text-to-Image (T2I) generation models, their evaluation remains challenging in domains like fashion, involving complex compositional generation. Recent automated T2I evaluation methods leverage pre-trained vision-language models to measure cross-modal alignment. However, our preliminary study reveals that they are still limited in assessing rich entity-attribute semantics, facing challenges in attribute confusion, i.e., when attributes are correctly depicted but associated to the wrong entities. To address this, we build on a Visual Question Answering (VQA) localization strategy targeting one single entity at a time across both visual and textual modalities. We propose a localized human evaluation protocol and introduce a novel automatic metric, Localized VQAScore (L-VQAScore), that combines visual localization with VQA probing both correct (reflection) and miss-localized (leakage) attribute generation. On a newly curated dataset featuring challenging compositional alignment scenarios, L-VQAScore outperforms state-of-the-art T2I evaluation methods in terms of correlation with human judgments, demonstrating its strength in capturing fine-grained entity-attribute associations. We believe L-VQAScore can be a reliable and scalable alternative to subjective evaluations.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーション・モデル(T2I)の急速な進歩にもかかわらず、それらの評価は、複雑な構成生成を含むファッションのような領域では依然として困難である。
最近の自動T2I評価手法は、事前学習された視覚言語モデルを用いて、相互モーダルアライメントを測定する。
しかし,本研究では,属性が正しく表現されているが,誤ったエンティティに関連付けられている場合など,属性の混乱に直面するような,リッチなエンティティ属性のセマンティクスの評価にはまだ限界があることを明らかにした。
これを解決するために,視覚とテキストの両モードで1つのエンティティを同時にターゲットとする視覚質問応答(VQA)ローカライゼーション戦略を構築した。
視覚的ローカライゼーションとVQAを組み合わせ, 正しい(反射)とミスローカライズされた(起影)の両方を推定する, 局所的評価プロトコルを提案し, 新たな自動計量であるLocalized VQAScore(L-VQAScore)を提案する。
コンポジションアライメントに挑戦するシナリオを特徴とする新たなデータセットでは、L-VQAScoreは人間の判断と相関して最先端のT2I評価手法を上回り、細粒度なエンティティ属性関連を捕捉する強度を実証している。
我々はL-VQAScoreを主観評価の信頼性と拡張性のある代替品とみなす。
関連論文リスト
- EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。