論文の概要: VTEdit-Bench: A Comprehensive Benchmark for Multi-Reference Image Editing Models in Virtual Try-On
- arxiv url: http://arxiv.org/abs/2603.11734v1
- Date: Thu, 12 Mar 2026 09:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.999668
- Title: VTEdit-Bench: A Comprehensive Benchmark for Multi-Reference Image Editing Models in Virtual Try-On
- Title(参考訳): VTEdit-Bench:仮想トライオンにおけるマルチ参照画像編集モデルの総合ベンチマーク
- Authors: Xiaoye Liang, Zhiyuan Qu, Mingye Zou, Jiaxin Liu, Lai Jiang, Mai Xu, Yiheng Zhu,
- Abstract要約: ユニバーサルなマルチ参照画像編集モデルは急速に進歩し、ビジュアル編集において強力な一般化を示している。
VTEdit-Benchは、様々な現実的なVTONシナリオにおいて、ユニバーサルなマルチ参照画像編集モデルを評価するために設計されたベンチマークである。
また、モデル一貫性、布の整合性、全体的な画質の3つの重要な側面からVTONの性能を評価する基準対応VLMベースの評価器であるVTEdit-QAを提案する。
- 参考スコア(独自算出の注目度): 39.307333593250995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As virtual try-on (VTON) continues to advance, a growing number of real-world scenarios have emerged, pushing beyond the ability of the existing specialized VTON models. Meanwhile, universal multi-reference image editing models have progressed rapidly and exhibit strong generalization in visual editing, suggesting a promising route toward more flexible VTON systems. However, despite their strong capabilities, the strengths and limitations of universal editors for VTON remain insufficiently explored due to the lack of systematic evaluation benchmarks. To address this gap, we introduce VTEdit-Bench, a comprehensive benchmark designed to evaluate universal multi-reference image editing models across various realistic VTON scenarios. VTEdit-Bench contains 24,220 test image pairs spanning five representative VTON tasks with progressively increasing complexity, enabling systematic analysis of robustness and generalization. We further propose VTEdit-QA, a reference-aware VLM-based evaluator that assesses VTON performance from three key aspects: model consistency, cloth consistency, and overall image quality. Through this framework, we systematically evaluate eight universal editing models and compare them with seven specialized VTON models. Results show that top universal editors are competitive on conventional tasks and generalize more stably to harder scenarios, but remain challenged by complex reference configurations, particularly multi-cloth conditioning.
- Abstract(参考訳): VTON(Virtual try-on)が進歩を続けるにつれ、既存の特殊なVTONモデルの能力を超えて、現実のシナリオが増えている。
一方、ユニバーサルなマルチ参照画像編集モデルは急速に進歩し、視覚編集における強力な一般化が示され、より柔軟なVTONシステムへの道のりが示唆されている。
しかし、その強い能力にもかかわらず、VTONのユニバーサルエディタの長所と短所は、体系的な評価ベンチマークが欠如していることから、まだ十分に検討されていない。
このギャップに対処するため,VTEdit-Benchは,様々な現実的なVTONシナリオを対象としたユニバーサルなマルチ参照画像編集モデルを評価するために設計された総合ベンチマークである。
VTEdit-Benchには、5つの代表的なVTONタスクにまたがる24,220のテストイメージペアが含まれており、複雑さが徐々に増大し、堅牢性と一般化の体系的な解析が可能になった。
さらに,モデル整合性,布の整合性,画像品質の3つの重要な側面から,VTONの性能を評価する基準対応VLMベースの評価器であるVTEdit-QAを提案する。
本研究では,8つのユニバーサル編集モデルを体系的に評価し,それを7つの専門VTONモデルと比較する。
その結果、トップユニバーサルエディタは従来のタスクと競合し、より難しいシナリオに安定して一般化するが、複雑な参照設定、特にマルチクロースコンディショニングによって課題が残ることが示された。
関連論文リスト
- PROMO: Promptable Outfitting for Efficient High-Fidelity Virtual Try-On [39.47263059671598]
VTONは3つの条件条件の下で強い条件生成を要求する構造化画像編集問題である。
本稿では,PROMOについて述べる。PROMOは,マルチモーダル条件が潜在するFlow Matching DiTバックボーン上に構築された,高速な仮想試行フレームワークである。
標準ベンチマークでは、PROMOは従来のVTON法と一般的な画像編集モデルの両方を視覚的忠実度で上回り、品質とスピードの競争力のバランスを保っている。
論文 参考訳(メタデータ) (2026-03-12T08:41:05Z) - How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - VTONGuard: Automatic Detection and Authentication of AI-Generated Virtual Try-On Content [18.869017622630647]
775,000以上の実画像と合成画像を含むベンチマークデータセットであるVTONGuardを提案する。
データセットは、ポーズ、背景、服装スタイルのバリエーションを含む、さまざまな現実世界の状況をカバーする。
本結果は,各手法の強みと弱みを明らかにし,パラダイム間一般化の持続的課題を強調した。
論文 参考訳(メタデータ) (2026-01-20T13:26:06Z) - VTONQA: A Multi-Dimensional Quality Assessment Dataset for Virtual Try-on [83.39966045949338]
VTONQAはVTON用に設計された最初の多次元品質評価データセットである。
11の代表的なVTONモデルによって生成される8,132の画像と、3つの評価次元にわたる24,396の平均世論スコア(MOS)を含んでいる。
VTONモデルとさまざまな画像品質評価(IQA)メトリクスのベンチマークを行い、既存の手法の限界を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T11:42:26Z) - EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。
現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-06-13T08:00:54Z) - VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation [11.529598741483076]
視覚トークン化器(VT)は連続した画素入力を離散トークンシーケンスにマッピングする。
現在の離散VTは連続的変分オートエンコーダ(VAE)に大きく遅れており、画像再構成の劣化と細部やテキストの保存不良につながる。
既存のベンチマークでは、VTパフォーマンスを分離することなく、エンドツーエンドの世代品質に重点を置いている。
VTBenchは、画像再構成、詳細保存、テキスト保存の3つのコアタスクに対して、VTを体系的に評価する包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-05-19T17:59:01Z) - Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。