論文の概要: DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2603.08090v1
- Date: Mon, 09 Mar 2026 08:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.706454
- Title: DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation
- Title(参考訳): DSH-Bench: 主題駆動型テキスト・画像生成のための階層型分類法を用いた難易度・シナリオ認識ベンチマーク
- Authors: Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang,
- Abstract要約: 対象駆動型T2Iモデルの系統的マルチパースペクティブ分析を可能にする総合ベンチマークであるDSH-Benchを提案する。
DSH-Benchは、19の先行モデルの広範な実験的な評価を通じて、現在のアプローチでこれまで明らかであった制限を明らかにした。
- 参考スコア(独自算出の注目度): 38.16770019228023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Significant progress has been achieved in subject-driven text-to-image (T2I) generation, which aims to synthesize new images depicting target subjects according to user instructions. However, evaluating these models remains a significant challenge. Existing benchmarks exhibit critical limitations: 1) insufficient diversity and comprehensiveness in subject images, 2) inadequate granularity in assessing model performance across different subject difficulty levels and prompt scenarios, and 3) a profound lack of actionable insights and diagnostic guidance for subsequent model refinement. To address these limitations, we propose DSH-Bench, a comprehensive benchmark that enables systematic multi-perspective analysis of subject-driven T2I models through four principal innovations: 1) a hierarchical taxonomy sampling mechanism ensuring comprehensive subject representation across 58 fine-grained categories, 2) an innovative classification scheme categorizing both subject difficulty level and prompt scenario for granular capability assessment, 3) a novel Subject Identity Consistency Score (SICS) metric demonstrating a 9.4\% higher correlation with human evaluation compared to existing measures in quantifying subject preservation, and 4) a comprehensive set of diagnostic insights derived from the benchmark, offering critical guidance for optimizing future model training paradigms and data construction strategies. Through an extensive empirical evaluation of 19 leading models, DSH-Bench uncovers previously obscured limitations in current approaches, establishing concrete directions for future research and development.
- Abstract(参考訳): 対象対象を対象とする画像をユーザ指示に従って合成することを目的とした、主題駆動型テキスト・ツー・イメージ(T2I)生成において、重要な進歩が達成されている。
しかし、これらのモデルを評価することは依然として大きな課題である。
既存のベンチマークでは、重要な制限が示されています。
1) 被写体画像の多様性と包括性が不十分である。
2【主題の難易度・シナリオの相違によるモデル性能評価の難しさ】
3) その後のモデル改良のための実用的な洞察と診断ガイダンスの欠如。
これらの制約に対処するために、DSH-Benchを提案する。DSH-Benchは、対象駆動型T2Iモデルの系統的マルチパースペクティブ分析を可能にする包括的なベンチマークである。
1)58の細粒度カテゴリにわたる包括的対象表現を保証する階層型分類抽出機構。
2)難易度と難易度の両方を分類する革新的な分類手法。
3 主観的整合度スコア(SICS)尺度は、主観的保存の定量化における既存の指標と比較して、人的評価と9.4 %高い相関を示す。
4) 将来のモデルトレーニングパラダイムとデータ構築戦略を最適化するための重要なガイダンスを提供する。
DSH-Benchは、19種類の主要なモデルに対する広範な実証的な評価を通じて、現在のアプローチにおける未解明の限界を明らかにし、将来の研究開発のための具体的な方向性を確立した。
関連論文リスト
- Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。
冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。
これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文 参考訳(メタデータ) (2025-06-03T10:11:51Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation [0.0]
本稿では,不確実性モデリングにおける基礎概念の統合とコンテキスト化について述べる。
空間集合における強い仮定や標準ベンチマークの欠如といった課題を特定する。
深層学習における不確実性認識のセグメンテーションを進めるための方向性を提案する。
論文 参考訳(メタデータ) (2024-11-25T13:26:09Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Hyperspectral Benchmark: Bridging the Gap between HSI Applications
through Comprehensive Dataset and Pretraining [11.935879491267634]
ハイパースペクトルイメージング (HSI) は、様々な応用の非破壊空間分光技術として機能する。
繰り返し発生する課題は、ターゲットデータセットの限られたサイズであり、徹底的なアーキテクチャ検索を妨げる。
本研究は、3つの顕著な異なるHSIアプリケーションを含む革新的なベンチマークデータセットを紹介する。
論文 参考訳(メタデータ) (2023-09-20T08:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。