論文の概要: Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback
- arxiv url: http://arxiv.org/abs/2603.13057v1
- Date: Fri, 13 Mar 2026 15:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.147119
- Title: Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback
- Title(参考訳): 人間のフィードバックによる仮想トライオンの基準自由画像品質評価
- Authors: Yuki Hirakawa, Takashi Wada, Ryotaro Shimizu, Takuya Furusawa, Yuki Saito, Ryosuke Araki, Tianwei Chen, Fan Mo, Yoshimitsu Aoki,
- Abstract要約: 画像ベース仮想トライアン(VTON)は、対象の衣服を着用している人の試着画像を合成する。
現実のシナリオでは、ターゲットの服装を身に着けている同一人物の地味なイメージは通常利用できない。
本稿では,仮想試行錯誤のための画像品質評価(VTONIQA)を提案する。
- 参考スコア(独自算出の注目度): 18.710602751294168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a person image and a garment image, image-based Virtual Try-ON (VTON) synthesizes a try-on image of the person wearing the target garment. As VTON systems become increasingly important in practical applications such as fashion e-commerce, reliable evaluation of their outputs has emerged as a critical challenge. In real-world scenarios, ground-truth images of the same person wearing the target garment are typically unavailable, making reference-based evaluation impractical. Moreover, widely used distribution-level metrics such as Fréchet Inception Distance and Kernel Inception Distance measure dataset-level similarity and fail to reflect the perceptual quality of individual generated images. To address these limitations, we propose Image Quality Assessment for Virtual Try-On (VTON-IQA), a reference-free framework for human-aligned, image-level quality assessment without requiring ground-truth images. To model human perceptual judgments, we construct VTON-QBench, a large-scale human-annotated benchmark comprising 62,688 try-on images generated by 14 representative VTON models and 431,800 quality annotations collected from 13,838 qualified annotators. To the best of our knowledge, this is the largest dataset to date for human subjective evaluation in virtual try-on. Evaluating virtual try-on quality requires verifying both garment fidelity and the preservation of person-specific details. To explicitly model such interactions, we introduce an Interleaved Cross-Attention module that extends standard transformer blocks by inserting a cross-attention layer between self-attention and MLP in the latter blocks. Extensive experiments show that VTON-IQA achieves reliable human-aligned image-level quality prediction. Moreover, we conduct a comprehensive benchmark evaluation of 14 representative VTON models using VTON-IQA.
- Abstract(参考訳): 人物画像と衣服画像とが与えられた場合、画像ベースバーチャルトライオン(VTON)は、対象の衣服を着用している人の試着画像を合成する。
VTONシステムは、ファッション電子商取引などの実践的応用においてますます重要になってきており、そのアウトプットの信頼性評価が重要な課題となっている。
現実のシナリオでは、ターゲットの服装を身に着けている同一人物の地味なイメージは一般に利用できないため、参照ベースの評価は現実的ではない。
さらに、Fréchet Inception DistanceやKernel Inception Distanceといった広く使われている分布レベルのメトリクスは、データセットレベルの類似度を測定し、個々の生成された画像の知覚品質を反映できない。
これらの制約に対処するために,人間の手動による画像品質評価のための基準フリーフレームワークであるVTON-IQA(Image Quality Assessment for Virtual Try-On)を提案する。
VTON-QBenchは,14の代表的なVTONモデルによって生成された62,688個の試行画像と,13,838個の認証アノテータから収集された431,800個の品質アノテーションから構成される。
我々の知る限りでは、これはバーチャルトライオンにおける人間の主観的評価にとって、これまでで最大のデータセットである。
仮想トライオンの品質を評価するには、衣服の忠実さと人固有の詳細の保存の両方を検証する必要がある。
このような相互作用を明示的にモデル化するために、我々はインターリーブド・クロス・アテンション・モジュールを導入し、後者のブロックで自己アテンションとMLPの間にクロスアテンション層を挿入して標準トランスフォーマーブロックを拡張する。
大規模な実験により、VTON-IQAは信頼性の高い画像レベルの品質予測を実現することが示された。
さらに、VTON-IQAを用いた14の代表的なVTONモデルの総合的なベンチマーク評価を行う。
関連論文リスト
- Bridging Human Evaluation to Infrared and Visible Image Fusion [54.71406895277533]
赤外線および可視画像融合(IVIF)は、シーン知覚を高めるために相補的なモダリティを統合する。
現在の手法は、主に手作りの損失と客観的なメトリクスの最適化に重点を置いており、しばしば人間の視覚的嗜好と一致しない融合結果をもたらす。
人間の評価を赤外線と可視画像の融合に橋渡しするフィードバック強化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-04T09:23:57Z) - Human-Aligned Evaluation of a Pixel-wise DNN Color Constancy Model [0.06554326244334864]
モデルと人間のパフォーマンスを、確立された色の一貫性メカニズムと比較し、研究する。
モデル性能は, 人体実験で使用したのと同じ無彩色物体選択タスクを用いて評価した。
結果は,モデルと人間の行動との間に強い対応性を示す。
論文 参考訳(メタデータ) (2026-02-14T21:03:29Z) - VTONQA: A Multi-Dimensional Quality Assessment Dataset for Virtual Try-on [83.39966045949338]
VTONQAはVTON用に設計された最初の多次元品質評価データセットである。
11の代表的なVTONモデルによって生成される8,132の画像と、3つの評価次元にわたる24,396の平均世論スコア(MOS)を含んでいる。
VTONモデルとさまざまな画像品質評価(IQA)メトリクスのベンチマークを行い、既存の手法の限界を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T11:42:26Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - C-VTON: Context-Driven Image-Based Virtual Try-On Network [1.0832844764942349]
本稿では,選択した衣服を対象者に確実に転送するコンテキスト駆動型仮想トライオンネットワーク(C-VTON)を提案する。
C-VTONパイプラインのコアには、(i)入力画像中の人物のポーズに目的の衣服を効率よく整列する幾何マッチング手順と、(ii)最終試行結果に様々な種類の文脈情報を利用する強力な画像生成装置とがある。
論文 参考訳(メタデータ) (2022-12-08T17:56:34Z) - Conformer and Blind Noisy Students for Improved Image Quality Assessment [80.57006406834466]
知覚品質評価(IQA)のための学習ベースアプローチは、通常、知覚品質を正確に測定するために歪んだ画像と参照画像の両方を必要とする。
本研究では,変換器を用いた全参照IQAモデルの性能について検討する。
また,全教師モデルから盲人学生モデルへの半教師付き知識蒸留に基づくIQAの手法を提案する。
論文 参考訳(メタデータ) (2022-04-27T10:21:08Z) - No-Reference Image Quality Assessment via Transformers, Relative
Ranking, and Self-Consistency [38.88541492121366]
No-Reference Image Quality Assessment (NR-IQA) の目的は、主観的評価に応じて知覚的画質を推定することである。
本稿では、変圧器における畳み込みニューラルネットワーク(CNN)と自己保持機構の利点を生かしたハイブリッドアプローチを利用して、NR-IQAタスクに対処する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-08-16T02:07:08Z) - A combined full-reference image quality assessment approach based on
convolutional activation maps [0.0]
フルリファレンス画像品質評価(FR-IQA)の目標は、人間の観察者が認識する画像の品質を、そのプリスタントな基準値を用いて予測することである。
本研究では,畳み込みアクティベーションマップから特徴ベクトルをコンパイルすることにより,歪み画像の知覚的品質を予測する手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T10:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。