論文の概要: Human Preference-Aligned Concept Customization Benchmark via Decomposed Evaluation
- arxiv url: http://arxiv.org/abs/2509.03385v1
- Date: Wed, 03 Sep 2025 15:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.565807
- Title: Human Preference-Aligned Concept Customization Benchmark via Decomposed Evaluation
- Title(参考訳): 人間の嗜好に適合した概念カスタマイズベンチマークの分解評価による評価
- Authors: Reina Ishikawa, Ryo Fujii, Hideo Saito, Ryo Hachiuma,
- Abstract要約: そこで我々は,人手による新しい評価手法である分解GPTスコア(D-GPTScore)を提案する。
我々はベンチマークデータセットであるHuman Preference-Aligned Concept Customization Benchmark (CC-AlignBench)をリリースした。
本手法は,人間の嗜好と高い相関性を示すため,既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 19.889844251026542
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating concept customization is challenging, as it requires a comprehensive assessment of fidelity to generative prompts and concept images. Moreover, evaluating multiple concepts is considerably more difficult than evaluating a single concept, as it demands detailed assessment not only for each individual concept but also for the interactions among concepts. While humans can intuitively assess generated images, existing metrics often provide either overly narrow or overly generalized evaluations, resulting in misalignment with human preference. To address this, we propose Decomposed GPT Score (D-GPTScore), a novel human-aligned evaluation method that decomposes evaluation criteria into finer aspects and incorporates aspect-wise assessments using Multimodal Large Language Model (MLLM). Additionally, we release Human Preference-Aligned Concept Customization Benchmark (CC-AlignBench), a benchmark dataset containing both single- and multi-concept tasks, enabling stage-wise evaluation across a wide difficulty range -- from individual actions to multi-person interactions. Our method significantly outperforms existing approaches on this benchmark, exhibiting higher correlation with human preferences. This work establishes a new standard for evaluating concept customization and highlights key challenges for future research. The benchmark and associated materials are available at https://github.com/ReinaIshikawa/D-GPTScore.
- Abstract(参考訳): 概念のカスタマイズを評価することは、生成的プロンプトや概念イメージに対する忠実さの包括的評価を必要とするため、難しい。
さらに、個々の概念だけでなく、概念間の相互作用についても詳細な評価を必要とするため、一つの概念を評価するよりも、複数の概念を評価することがかなり難しい。
人間は直感的に生成された画像を評価することができるが、既存のメトリクスは、過度に狭く、あるいは過度に一般化された評価を提供することが多く、人間の好みと不一致をもたらす。
そこで本稿では,評価基準を細かな側面に分解し,マルチモーダル大言語モデル(MLLM)を用いたアスペクトワイズ評価を取り入れた,人手による新しい評価手法であるDecomposed GPT Score(D-GPTScore)を提案する。
さらに、シングルコンセプトタスクとマルチコンセプトタスクの両方を含むベンチマークデータセットであるHuman Preference-AlignBench(CC-AlignBench)もリリースしています。
本手法は,人間の嗜好と高い相関性を示すため,既存の手法よりも優れていた。
この研究は、概念のカスタマイズを評価するための新しい標準を確立し、将来の研究における重要な課題を強調する。
ベンチマークと関連する資料はhttps://github.com/Reina Ishikawa/D-GPTScore.comで公開されている。
関連論文リスト
- InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.30601926271864]
InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。
我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。
InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
論文 参考訳(メタデータ) (2026-02-16T00:40:31Z) - A Theoretical Framework for Adaptive Utility-Weighted Benchmarking [0.0]
本稿では,ベンチマークを重み付けによる評価指標,モデルコンポーネント,利害関係者グループとして再認識する理論的枠組みを提案する。
コンジョイント由来のユーティリティとHuman-in-the-loop更新ルールを用いて、人間のトレードオフをベンチマーク構造に組み込む方法と、ベンチマークが安定性と解釈可能性を維持しながら動的に進化する方法を定式化する。
論文 参考訳(メタデータ) (2026-02-12T19:33:47Z) - Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [118.44328586173556]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。
Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。
我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文 参考訳(メタデータ) (2025-09-30T12:20:57Z) - From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。
プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Bayesian Active Learning for Multi-Criteria Comparative Judgement in Educational Assessment [2.443343861973814]
比較判断(CJ)は、仕事を個別の基準に分解するのではなく、全体的評価によって代替的な評価手法を提供する。
この方法は、人間によるニュアンスの比較能力を活用し、より信頼性が高く有効な評価を得る。
ルーブリックは教育で広く使われており、グレーディングと詳細なフィードバックのための構造化された基準を提供しています。
これにより、CJの総合的なランキングと、基準に基づくパフォーマンスのブレークダウンの必要性の間にギャップが生じる。
論文 参考訳(メタデータ) (2025-03-01T13:12:41Z) - SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。
SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。
我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文 参考訳(メタデータ) (2025-01-26T16:45:09Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - What Are We Optimizing For? A Human-centric Evaluation of Deep Learning-based Movie Recommenders [12.132920692489911]
映画領域における4つのDL-RecSysモデルの人間中心評価ケーススタディを行う。
DL-RecSysモデルがパーソナライズされたレコメンデーション生成において,445人の実アクティブユーザを対象に調査を行った。
いくつかのDL-RecSysモデルは、新規で予期せぬ項目を推奨し、多様性、信頼性、透明性、正確性、全体的なユーザ満足度が低下している。
論文 参考訳(メタデータ) (2024-01-21T23:56:57Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Enriching ImageNet with Human Similarity Judgments and Psychological
Embeddings [7.6146285961466]
人間の知覚と推論のタスク汎用能力を具現化したデータセットを提案する。
ImageNet(ImageNet-HSJ)のHuman similarity Judgments拡張は、人間の類似性判定で構成されている。
新しいデータセットは、教師なし学習アルゴリズムの評価を含む、タスクとパフォーマンスのメトリクスの範囲をサポートする。
論文 参考訳(メタデータ) (2020-11-22T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。