論文の概要: OpenVTON-Bench: A Large-Scale High-Resolution Benchmark for Controllable Virtual Try-On Evaluation
- arxiv url: http://arxiv.org/abs/2601.22725v1
- Date: Fri, 30 Jan 2026 08:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.335849
- Title: OpenVTON-Bench: A Large-Scale High-Resolution Benchmark for Controllable Virtual Try-On Evaluation
- Title(参考訳): OpenVTON-Bench: 制御可能な仮想トライオン評価のための大規模高分解能ベンチマーク
- Authors: Jin Li, Tao Chen, Shuai Jiang, Weijie Wang, Jingwen Luo, Chenhui Wu,
- Abstract要約: 約100Kの高解像度画像対からなる大規模ベンチマークであるOpenVTON-Benchを提案する。
データセットはDINOv3ベースの階層クラスタリングを用いて構築され、セマンティック・バランスの取れたサンプリングとジェミニ・パワーの高密度キャプションを行う。
本稿では,VTONの品質を背景整合性,アイデンティティの忠実度,テクスチャの忠実度,形状の妥当性,全体的現実性という5つの解釈可能な次元に沿って測定するマルチモーダルプロトコルを提案する。
- 参考スコア(独自算出の注目度): 14.782532923428084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have significantly elevated the visual fidelity of Virtual Try-On (VTON) systems, yet reliable evaluation remains a persistent bottleneck. Traditional metrics struggle to quantify fine-grained texture details and semantic consistency, while existing datasets fail to meet commercial standards in scale and diversity. We present OpenVTON-Bench, a large-scale benchmark comprising approximately 100K high-resolution image pairs (up to $1536 \times 1536$). The dataset is constructed using DINOv3-based hierarchical clustering for semantically balanced sampling and Gemini-powered dense captioning, ensuring a uniform distribution across 20 fine-grained garment categories. To support reliable evaluation, we propose a multi-modal protocol that measures VTON quality along five interpretable dimensions: background consistency, identity fidelity, texture fidelity, shape plausibility, and overall realism. The protocol integrates VLM-based semantic reasoning with a novel Multi-Scale Representation Metric based on SAM3 segmentation and morphological erosion, enabling the separation of boundary alignment errors from internal texture artifacts. Experimental results show strong agreement with human judgments (Kendall's $τ$ of 0.833 vs. 0.611 for SSIM), establishing a robust benchmark for VTON evaluation.
- Abstract(参考訳): 拡散モデルの最近の進歩は仮想試行錯誤(VTON)システムの視覚的忠実度を著しく高めているが、信頼性評価は依然として持続的なボトルネックである。
従来のメトリクスは、きめ細かいテクスチャの詳細とセマンティック一貫性の定量化に苦労する一方で、既存のデータセットは、スケールと多様性の商業標準を満たしていない。
約100Kの高分解能画像対(最大1536 \times 1536$)からなる大規模ベンチマークであるOpenVTON-Benchを提案する。
データセットはDINOv3ベースの階層的クラスタリングを用いて構築され、セマンティックなバランスの取れたサンプリングと、ジェミニの高密度キャプションを使用して、20のきめ細かい衣服カテゴリに均一な分布を保証している。
信頼性評価を支援するために,背景の整合性,アイデンティティの忠実さ,テクスチャの忠実さ,形状の妥当性,全体的現実性という5つの解釈可能な次元に沿ってVTONの品質を測定するマルチモーダルプロトコルを提案する。
このプロトコルは、VLMに基づくセマンティック推論とSAM3セグメンテーションと形態的侵食に基づく新しいマルチスケール表現メトリクスを統合し、内部テクスチャアーティファクトから境界アライメントエラーを分離することを可能にする。
実験の結果,人間の判断と強い一致(Kendall's $τ$ of 0.833 vs. 0.611 for SSIM)を示し,VTON評価のための堅牢なベンチマークを確立した。
関連論文リスト
- VTONQA: A Multi-Dimensional Quality Assessment Dataset for Virtual Try-on [83.39966045949338]
VTONQAはVTON用に設計された最初の多次元品質評価データセットである。
11の代表的なVTONモデルによって生成される8,132の画像と、3つの評価次元にわたる24,396の平均世論スコア(MOS)を含んでいる。
VTONモデルとさまざまな画像品質評価(IQA)メトリクスのベンチマークを行い、既存の手法の限界を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T11:42:26Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution Input [25.671340854789236]
textbfRes-Benchは、12の解像度レベルと6つのコア能力次元にわたる14,400のサンプルからなるベンチマークである。
このフレームワークでは、解像度とパフォーマンスのトレンドを評価するSpearmanの相関と、パフォーマンスのボラティリティを測定するAbsolute/Relative Continuous Error(ACE/RCE)という、複数のロバストネスメトリクスが導入されている。
本分析は,(1)モデル中心およびタスク中心のロバストネス試験,(2)パディングと超解像を含む前処理戦略の調査,(3)安定性向上のための微調整の探索を含む。
論文 参考訳(メタデータ) (2025-10-19T16:53:01Z) - VTBench: Comprehensive Benchmark Suite Towards Real-World Virtual Try-on Models [3.7098434045639874]
VTBenchは、仮想画像試行を階層的、非絡み合いの次元に分解する階層型ベンチマークスイートである。
このベンチマークは仮想試行生成のための5つの重要な次元を含んでいる。
VTBenchは、すべてのテストセット、評価プロトコル、生成された結果、人間のアノテーションを含むオープンソースになる。
論文 参考訳(メタデータ) (2025-05-26T06:37:11Z) - DEFOM-Stereo: Depth Foundation Model Based Stereo Matching [12.22373236061929]
DEFOM-Stereoはモノクローナルディープキューとの堅牢なステレオマッチングを容易にするために構築されている。
SOTA法と比較してより強いゼロショットの一般化があることが確認された。
我々のモデルは、個々のベンチマークにおいて、以前のモデルより同時に優れています。
論文 参考訳(メタデータ) (2025-01-16T10:59:29Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。