論文の概要: CROC: Evaluating and Training T2I Metrics with Pseudo- and Human-Labeled Contrastive Robustness Checks
- arxiv url: http://arxiv.org/abs/2505.11314v1
- Date: Fri, 16 May 2025 14:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.283894
- Title: CROC: Evaluating and Training T2I Metrics with Pseudo- and Human-Labeled Contrastive Robustness Checks
- Title(参考訳): CROC:擬似・人為的比較ロバスト性検査によるT2I測定値の評価と訓練
- Authors: Christoph Leiter, Yuki M. Asano, Margret Keuper, Steffen Eger,
- Abstract要約: CROC(Contrastive Robustness Checks)を提案する。
我々は100万以上の対照的なプロンプトイメージ対の擬似ラベル付きデータセットを生成する。
また、このデータセットを使ってCROCScoreをトレーニングしています。
- 参考スコア(独自算出の注目度): 46.89839054706183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The assessment of evaluation metrics (meta-evaluation) is crucial for determining the suitability of existing metrics in text-to-image (T2I) generation tasks. Human-based meta-evaluation is costly and time-intensive, and automated alternatives are scarce. We address this gap and propose CROC: a scalable framework for automated Contrastive Robustness Checks that systematically probes and quantifies metric robustness by synthesizing contrastive test cases across a comprehensive taxonomy of image properties. With CROC, we generate a pseudo-labeled dataset (CROC$^{syn}$) of over one million contrastive prompt-image pairs to enable a fine-grained comparison of evaluation metrics. We also use the dataset to train CROCScore, a new metric that achieves state-of-the-art performance among open-source methods, demonstrating an additional key application of our framework. To complement this dataset, we introduce a human-supervised benchmark (CROC$^{hum}$) targeting especially challenging categories. Our results highlight robustness issues in existing metrics: for example, many fail on prompts involving negation, and all tested open-source metrics fail on at least 25% of cases involving correct identification of body parts.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成タスクにおける既存のメトリクスの適合性を決定するためには,評価指標(メタ・評価)の評価が不可欠である。
人ベースのメタ評価はコストが高く、時間集約的であり、自動化された代替手段は少ない。
画像特性の包括的分類にまたがってコントラストテストケースを合成することにより,定量的ロバストネスを体系的に調査し,定量化する,自動コントラストロバストネスチェックのためのスケーラブルなフレームワークであるCROCを提案する。
CROCを用いて、100万以上の対照的なプロンプトイメージペアの擬似ラベル付きデータセット(CROC$^{syn}$)を生成し、評価指標のきめ細かい比較を可能にする。
また、このデータセットを使ってCROCScoreをトレーニングしています。これはオープンソースのメソッド間の最先端のパフォーマンスを実現し、私たちのフレームワークの新たな重要な応用を実証します。
このデータセットを補完するために、特に困難なカテゴリをターゲットにした人間監督ベンチマーク(CROC$^{hum}$)を導入する。
例えば、ネゲーションを含むプロンプトで多くのフェールが発生し、テスト済みのオープンソースメトリクスは、ボディ部分の正確な識別を含むケースの少なくとも25%でフェールします。
関連論文リスト
- Exploring Information Retrieval Landscapes: An Investigation of a Novel Evaluation Techniques and Comparative Document Splitting Methods [0.0]
本研究では, 教科書の構造的性質, 記事の簡潔さ, 小説の物語的複雑さについて, 明確な検索戦略が必要であることを示した。
オープンソースのモデルを用いて,質問対と回答対の包括的データセットを生成する新しい評価手法を提案する。
評価には、SequenceMatcher、BLEU、METEOR、BERT Scoreなどの重み付けされたスコアを使用して、システムの正確性と妥当性を評価する。
論文 参考訳(メタデータ) (2024-09-13T02:08:47Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Utilizing Class Separation Distance for the Evaluation of Corruption
Robustness of Machine Learning Classifiers [0.6882042556551611]
本稿では,最小クラス分離距離のデータセットから得られるロバストネス距離$epsilon$を使用するテストデータ拡張手法を提案する。
結果として得られるMSCRメトリックは、その破損の堅牢性に関して異なる分類器のデータセット固有の比較を可能にする。
以上の結果から, 単純なデータ拡張によるロバストネストレーニングにより, 精度が若干向上することが示唆された。
論文 参考訳(メタデータ) (2022-06-27T15:56:16Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。