論文の概要: SelfEval: Leveraging the discriminative nature of generative models for
evaluation
- arxiv url: http://arxiv.org/abs/2311.10708v1
- Date: Fri, 17 Nov 2023 18:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 13:43:51.559848
- Title: SelfEval: Leveraging the discriminative nature of generative models for
evaluation
- Title(参考訳): SelfEval: 評価のための生成モデルの識別特性を活用する
- Authors: Sai Saketh Rambhatla, Ishan Misra
- Abstract要約: そこで本研究では,テキスト・画像生成モデルを「逆」にすることで,テキスト・画像認識能力を評価できることを示す。
提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いている。
- 参考スコア(独自算出の注目度): 35.7242199928684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we show that text-to-image generative models can be 'inverted'
to assess their own text-image understanding capabilities in a completely
automated manner.
Our method, called SelfEval, uses the generative model to compute the
likelihood of real images given text prompts, making the generative model
directly applicable to discriminative tasks.
Using SelfEval, we repurpose standard datasets created for evaluating
multimodal text-image discriminative models to evaluate generative models in a
fine-grained manner: assessing their performance on attribute binding, color
recognition, counting, shape recognition, spatial understanding.
To the best of our knowledge SelfEval is the first automated metric to show a
high degree of agreement for measuring text-faithfulness with the gold-standard
human evaluations across multiple models and benchmarks.
Moreover, SelfEval enables us to evaluate generative models on challenging
tasks such as Winoground image-score where they demonstrate competitive
performance to discriminative models.
We also show severe drawbacks of standard automated metrics such as
CLIP-score to measure text faithfulness on benchmarks such as DrawBench, and
how SelfEval sidesteps these issues.
We hope SelfEval enables easy and reliable automated evaluation for diffusion
models.
- Abstract(参考訳): 本研究では,テキストから画像への生成モデルを「反転」して,テキスト画像理解能力を完全に自動的に評価できることを示す。
我々の手法であるSelfEvalは、テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを使用し、その生成モデルを識別タスクに直接適用する。
SelfEvalを用いて、マルチモーダルテキスト画像識別モデルを評価するための標準データセットを再利用し、属性バインディング、色認識、カウント、形状認識、空間的理解におけるそれらの性能を評価する。
私たちの知る限りでは、SelfEvalは、複数のモデルやベンチマークにおいて、ゴールドスタンダードの人間による評価とテキストの信頼度を測定するための高度な合意を示す最初の自動メトリクスです。
さらに, 識別モデルとの競合性能を示すWinoground画像スコアなどの課題に対して, 生成モデルの評価を可能にする。
また、DrawBenchのようなベンチマークでテキストの忠実度を測定するためにCLIPスコアのような標準的な自動メトリクスの深刻な欠点や、SelfEvalがこれらの問題をどう回避するかを示す。
拡散モデルの容易かつ信頼性の高い自動評価を可能にすることを願っている。
関連論文リスト
- Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。
DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。
我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文 参考訳(メタデータ) (2024-11-23T10:06:18Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models [23.09033991200197]
新しいパーソナライズ技術は、特定のテーマやスタイルのイメージを作成するために、事前訓練されたベースモデルをカスタマイズするために提案されている。
このような軽量なソリューションは、パーソナライズされたモデルが不正なデータからトレーニングされているかどうかに関して、新たな懸念を生じさせる。
我々は、ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて、不正なデータ使用を積極的に追跡する新しい手法であるSIRENを紹介する。
論文 参考訳(メタデータ) (2024-10-14T12:29:23Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Class-Conditional self-reward mechanism for improved Text-to-Image models [1.8434042562191815]
我々は、自己回帰モデルの概念に基づいて、テキストから画像への生成AIモデルに匹敵するビジョンを導入する。
このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルによって機能する。
既存の商用および研究用テキスト・ツー・イメージ・モデルよりも60%以上優れていると評価されている。
論文 参考訳(メタデータ) (2024-05-22T09:28:43Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction [2.3691158404002066]
生成した画像に対する自然表情反応からユーザの嗜好を自動的に評価する手法を開発し,テストする。
生成画像に対する表情反応(FERGI)のデータセットを収集し,複数の顔行動単位(AU)の活性化が生成画像のユーザ評価と高い相関性を示す。
我々は,AU推定モデルから入力を受け取るFAU-Net(Facial Action Units Neural Network)を開発し,テキスト・画像生成のためのユーザの好みを自動的に評価する。
論文 参考訳(メタデータ) (2023-12-05T23:33:49Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models [14.330863905963442]
生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。
ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。
次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
論文 参考訳(メタデータ) (2023-06-07T18:00:00Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。