論文の概要: Human Preference-Aligned Concept Customization Benchmark via Decomposed Evaluation
- arxiv url: http://arxiv.org/abs/2509.03385v1
- Date: Wed, 03 Sep 2025 15:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.565807
- Title: Human Preference-Aligned Concept Customization Benchmark via Decomposed Evaluation
- Title(参考訳): 人間の嗜好に適合した概念カスタマイズベンチマークの分解評価による評価
- Authors: Reina Ishikawa, Ryo Fujii, Hideo Saito, Ryo Hachiuma,
- Abstract要約: そこで我々は,人手による新しい評価手法である分解GPTスコア(D-GPTScore)を提案する。
我々はベンチマークデータセットであるHuman Preference-Aligned Concept Customization Benchmark (CC-AlignBench)をリリースした。
本手法は,人間の嗜好と高い相関性を示すため,既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 19.889844251026542
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating concept customization is challenging, as it requires a comprehensive assessment of fidelity to generative prompts and concept images. Moreover, evaluating multiple concepts is considerably more difficult than evaluating a single concept, as it demands detailed assessment not only for each individual concept but also for the interactions among concepts. While humans can intuitively assess generated images, existing metrics often provide either overly narrow or overly generalized evaluations, resulting in misalignment with human preference. To address this, we propose Decomposed GPT Score (D-GPTScore), a novel human-aligned evaluation method that decomposes evaluation criteria into finer aspects and incorporates aspect-wise assessments using Multimodal Large Language Model (MLLM). Additionally, we release Human Preference-Aligned Concept Customization Benchmark (CC-AlignBench), a benchmark dataset containing both single- and multi-concept tasks, enabling stage-wise evaluation across a wide difficulty range -- from individual actions to multi-person interactions. Our method significantly outperforms existing approaches on this benchmark, exhibiting higher correlation with human preferences. This work establishes a new standard for evaluating concept customization and highlights key challenges for future research. The benchmark and associated materials are available at https://github.com/ReinaIshikawa/D-GPTScore.
- Abstract(参考訳): 概念のカスタマイズを評価することは、生成的プロンプトや概念イメージに対する忠実さの包括的評価を必要とするため、難しい。
さらに、個々の概念だけでなく、概念間の相互作用についても詳細な評価を必要とするため、一つの概念を評価するよりも、複数の概念を評価することがかなり難しい。
人間は直感的に生成された画像を評価することができるが、既存のメトリクスは、過度に狭く、あるいは過度に一般化された評価を提供することが多く、人間の好みと不一致をもたらす。
そこで本稿では,評価基準を細かな側面に分解し,マルチモーダル大言語モデル(MLLM)を用いたアスペクトワイズ評価を取り入れた,人手による新しい評価手法であるDecomposed GPT Score(D-GPTScore)を提案する。
さらに、シングルコンセプトタスクとマルチコンセプトタスクの両方を含むベンチマークデータセットであるHuman Preference-AlignBench(CC-AlignBench)もリリースしています。
本手法は,人間の嗜好と高い相関性を示すため,既存の手法よりも優れていた。
この研究は、概念のカスタマイズを評価するための新しい標準を確立し、将来の研究における重要な課題を強調する。
ベンチマークと関連する資料はhttps://github.com/Reina Ishikawa/D-GPTScore.comで公開されている。
関連論文リスト
- From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。
プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。
SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。
我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文 参考訳(メタデータ) (2025-01-26T16:45:09Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - What Are We Optimizing For? A Human-centric Evaluation of Deep Learning-based Movie Recommenders [12.132920692489911]
映画領域における4つのDL-RecSysモデルの人間中心評価ケーススタディを行う。
DL-RecSysモデルがパーソナライズされたレコメンデーション生成において,445人の実アクティブユーザを対象に調査を行った。
いくつかのDL-RecSysモデルは、新規で予期せぬ項目を推奨し、多様性、信頼性、透明性、正確性、全体的なユーザ満足度が低下している。
論文 参考訳(メタデータ) (2024-01-21T23:56:57Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Enriching ImageNet with Human Similarity Judgments and Psychological
Embeddings [7.6146285961466]
人間の知覚と推論のタスク汎用能力を具現化したデータセットを提案する。
ImageNet(ImageNet-HSJ)のHuman similarity Judgments拡張は、人間の類似性判定で構成されている。
新しいデータセットは、教師なし学習アルゴリズムの評価を含む、タスクとパフォーマンスのメトリクスの範囲をサポートする。
論文 参考訳(メタデータ) (2020-11-22T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。