論文の概要: SelfEval: Leveraging the discriminative nature of generative models for
evaluation
- arxiv url: http://arxiv.org/abs/2311.10708v1
- Date: Fri, 17 Nov 2023 18:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 13:43:51.559848
- Title: SelfEval: Leveraging the discriminative nature of generative models for
evaluation
- Title(参考訳): SelfEval: 評価のための生成モデルの識別特性を活用する
- Authors: Sai Saketh Rambhatla, Ishan Misra
- Abstract要約: そこで本研究では,テキスト・画像生成モデルを「逆」にすることで,テキスト・画像認識能力を評価できることを示す。
提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いている。
- 参考スコア(独自算出の注目度): 35.7242199928684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we show that text-to-image generative models can be 'inverted'
to assess their own text-image understanding capabilities in a completely
automated manner.
Our method, called SelfEval, uses the generative model to compute the
likelihood of real images given text prompts, making the generative model
directly applicable to discriminative tasks.
Using SelfEval, we repurpose standard datasets created for evaluating
multimodal text-image discriminative models to evaluate generative models in a
fine-grained manner: assessing their performance on attribute binding, color
recognition, counting, shape recognition, spatial understanding.
To the best of our knowledge SelfEval is the first automated metric to show a
high degree of agreement for measuring text-faithfulness with the gold-standard
human evaluations across multiple models and benchmarks.
Moreover, SelfEval enables us to evaluate generative models on challenging
tasks such as Winoground image-score where they demonstrate competitive
performance to discriminative models.
We also show severe drawbacks of standard automated metrics such as
CLIP-score to measure text faithfulness on benchmarks such as DrawBench, and
how SelfEval sidesteps these issues.
We hope SelfEval enables easy and reliable automated evaluation for diffusion
models.
- Abstract(参考訳): 本研究では,テキストから画像への生成モデルを「反転」して,テキスト画像理解能力を完全に自動的に評価できることを示す。
我々の手法であるSelfEvalは、テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを使用し、その生成モデルを識別タスクに直接適用する。
SelfEvalを用いて、マルチモーダルテキスト画像識別モデルを評価するための標準データセットを再利用し、属性バインディング、色認識、カウント、形状認識、空間的理解におけるそれらの性能を評価する。
私たちの知る限りでは、SelfEvalは、複数のモデルやベンチマークにおいて、ゴールドスタンダードの人間による評価とテキストの信頼度を測定するための高度な合意を示す最初の自動メトリクスです。
さらに, 識別モデルとの競合性能を示すWinoground画像スコアなどの課題に対して, 生成モデルの評価を可能にする。
また、DrawBenchのようなベンチマークでテキストの忠実度を測定するためにCLIPスコアのような標準的な自動メトリクスの深刻な欠点や、SelfEvalがこれらの問題をどう回避するかを示す。
拡散モデルの容易かつ信頼性の高い自動評価を可能にすることを願っている。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Verifiable evaluations of machine learning models using zkSNARKs [40.538081946945596]
本研究は,zkSNARKによるモデル推論を用いたモデル評価の検証手法を提案する。
結果として得られたデータセット上のモデル出力のゼロ知識計算証明は、検証可能な評価証明にパッケージ化することができる。
実世界のモデルのサンプルでこれを初めてデモし、重要な課題と設計ソリューションを強調します。
論文 参考訳(メタデータ) (2024-02-05T02:21:11Z) - FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction [2.3691158404002066]
生成した画像に対する自然表情反応からユーザの嗜好を自動的に評価する手法を開発し,テストする。
生成画像に対する表情反応(FERGI)のデータセットを収集し,複数の顔行動単位(AU)の活性化が生成画像のユーザ評価と高い相関性を示す。
我々は,AU推定モデルから入力を受け取るFAU-Net(Facial Action Units Neural Network)を開発し,テキスト・画像生成のためのユーザの好みを自動的に評価する。
論文 参考訳(メタデータ) (2023-12-05T23:33:49Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - GMValuator: Similarity-based Data Valuation for Generative Models [41.76259565672285]
生成モデル評価器(GMValuator, Generative Model Valuator, GMValuator, GMValuator)を導入した。
GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。
論文 参考訳(メタデータ) (2023-04-21T02:02:02Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Residual Energy-Based Models for Text [46.22375671394882]
自動回帰言語モデルの世代は、統計的判別器によって実際のテキストと確実に区別できることを示す。
これは、自己回帰モデルが生成過程に(グローバルに正規化された)判別器を組み込むことで改善できることを示唆している。
論文 参考訳(メタデータ) (2020-04-06T13:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。