論文の概要: Beyond the Pixels: VLM-based Evaluation of Identity Preservation in Reference-Guided Synthesis
- arxiv url: http://arxiv.org/abs/2511.08087v1
- Date: Wed, 12 Nov 2025 01:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.637549
- Title: Beyond the Pixels: VLM-based Evaluation of Identity Preservation in Reference-Guided Synthesis
- Title(参考訳): レンズを超えて:VLMによる参照誘導合成におけるアイデンティティ保存の評価
- Authors: Aditi Singhania, Krutik Malani, Riddhi Dhawan, Arushi Jain, Garv Tandon, Nippun Sharma, Souymodip Chakraborty, Vineet Batra, Ankit Phogat,
- Abstract要約: 私たちは、アイデンティティアセスメントを特徴レベルの変換に分解する階層的な評価フレームワークであるBeyond the Pixelsを紹介します。
我々は、4つの最先端な生成モデルにまたがってフレームワークを検証し、アイデンティティの整合性を測定する上で、人間の判断と強い整合性を示す。
本稿では, 生成モデルのストレステストに特化して設計された新しいベンチマークについて紹介する。人為的, アニメーション的キャラクタなど, 多様な対象タイプにまたがる1,078のイメージプロンプトペアで構成されている。
- 参考スコア(独自算出の注目度): 1.723221580532065
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating identity preservation in generative models remains a critical yet unresolved challenge. Existing metrics rely on global embeddings or coarse VLM prompting, failing to capture fine-grained identity changes and providing limited diagnostic insight. We introduce Beyond the Pixels, a hierarchical evaluation framework that decomposes identity assessment into feature-level transformations. Our approach guides VLMs through structured reasoning by (1) hierarchically decomposing subjects into (type, style) -> attribute -> feature decision tree, and (2) prompting for concrete transformations rather than abstract similarity scores. This decomposition grounds VLM analysis in verifiable visual evidence, reducing hallucinations and improving consistency. We validate our framework across four state-of-the-art generative models, demonstrating strong alignment with human judgments in measuring identity consistency. Additionally, we introduce a new benchmark specifically designed to stress-test generative models. It comprises 1,078 image-prompt pairs spanning diverse subject types, including underrepresented categories such as anthropomorphic and animated characters, and captures an average of six to seven transformation axes per prompt.
- Abstract(参考訳): 生成モデルにおけるアイデンティティの保存を評価することは、批判的だが未解決の課題である。
既存のメトリクスは、グローバルな埋め込みや粗いVLMのプロンプトに依存しており、きめ細かいアイデンティティの変化を捉えることができず、診断の洞察が限られている。
私たちは、アイデンティティアセスメントを特徴レベルの変換に分解する階層的評価フレームワークであるBeyond the Pixelsを紹介します。
提案手法は,(1)対象を(タイプ,スタイル)->属性->特徴決定木に階層的に分解し,(2)抽象的類似度スコアではなく具体的な変換を促す構造的推論を通してVLMを導出する。
この分解は、VLM分析を検証可能な視覚的証拠に置き、幻覚を減らし、一貫性を向上させる。
我々は、4つの最先端な生成モデルにまたがってフレームワークを検証し、アイデンティティの整合性を測定する上で、人間の判断と強い整合性を示す。
さらに, ストレステスト型生成モデルに特化して設計された新しいベンチマークを導入する。
人為的・アニメーション的なキャラクターなどの表現の少ないカテゴリを含む、多様な主題にまたがる1,078のイメージプロンプト対を含み、1プロンプトあたり平均6から7の変換軸をキャプチャする。
関連論文リスト
- Taming Identity Consistency and Prompt Diversity in Diffusion Models via Latent Concatenation and Masked Conditional Flow Matching [1.9270911143386336]
被写体駆動画像生成は、様々な文脈において、特定の被写体の新たな描写を合成することを目的としている。
潜在連結戦略を用いたLoRA微調整拡散モデルを提案する。
フィルタリングと品質評価のために, きめ細かい評価フレームワークCHARISを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:00:32Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection [6.060036926093259]
HAMLET-FFDは顔偽造検出のためのクロスドメイン一般化フレームワークである。
視覚的証拠と概念的手がかりを統合し、専門家の法医学的分析をエミュレートする。
HAMLET-FFDは設計上、外部プラグインとして機能する全ての事前訓練されたパラメータを凍結する。
論文 参考訳(メタデータ) (2025-07-28T15:09:52Z) - Evaluating Attribute Confusion in Fashion Text-to-Image Generation [7.376363744616336]
我々は、エンティティ属性のセマンティクスを評価するために、VQA(Visual Question Answering)ローカライズ戦略を構築した。
本稿では,視覚的ローカライゼーションとVQAを組み合わせた新しい自動測度であるLocalized VQAScore(L-VQAScore)を提案する。
コンポジションアライメントに挑戦するシナリオを特徴とする新たなキュレートデータセットでは、L-VQAScoreは人間の判断と相関して最先端のT2I評価手法より優れている。
論文 参考訳(メタデータ) (2025-07-09T17:38:40Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。