論文の概要: SelfEval: Leveraging the discriminative nature of generative models for evaluation
- arxiv url: http://arxiv.org/abs/2311.10708v2
- Date: Wed, 27 Nov 2024 00:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:18.235954
- Title: SelfEval: Leveraging the discriminative nature of generative models for evaluation
- Title(参考訳): SelfEval: 評価のための生成モデルの識別特性を活用する
- Authors: Sai Saketh Rambhatla, Ishan Misra,
- Abstract要約: テキストから画像への生成拡散モデルのテキストアライメントを自動評価する方法を提案する。
提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いている。
- 参考スコア(独自算出の注目度): 30.239717220862143
- License:
- Abstract: We present an automated way to evaluate the text alignment of text-to-image generative diffusion models using standard image-text recognition datasets. Our method, called SelfEval, uses the generative model to compute the likelihood of real images given text prompts, and the likelihood can be used to perform recognition tasks with the generative model. We evaluate generative models on standard datasets created for multimodal text-image discriminative learning and assess fine-grained aspects of their performance: attribute binding, color recognition, counting, shape recognition, spatial understanding. Existing automated metrics rely on an external pretrained model like CLIP (VLMs) or LLMs, and are sensitive to the exact pretrained model and its limitations. SelfEval sidesteps these issues, and to the best of our knowledge, is the first automated metric to show a high degree of agreement for measuring text-faithfulness with the gold-standard human evaluations across multiple generative models, benchmarks and evaluation metrics. SelfEval also reveals that generative models showcase competitive recognition performance on challenging tasks such as Winoground image-score compared to discriminative models. We hope SelfEval enables easy and reliable automated evaluation for diffusion models.
- Abstract(参考訳): 本稿では,標準画像認識データセットを用いてテキストから画像への拡散モデルのテキストアライメントを自動評価する方法を提案する。
提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いており,生成モデルを用いて認識タスクを行うことが可能である。
マルチモーダルテキスト画像識別学習のために作成された標準データセットの生成モデルを評価し,属性バインディング,色認識,カウント,形状認識,空間的理解など,その性能のきめ細かい側面を評価する。
既存の自動メトリクスは、CLIP(VLM)やLLMのような外部事前トレーニングモデルに依存しており、正確な事前トレーニングモデルとその制限に敏感である。
SelfEvalはこれらの問題を横取りし、私たちの知る限りでは、複数の生成モデル、ベンチマーク、評価メトリクスをまたいだゴールドスタンダードな人間の評価とテキストの信頼度を測定するための、高度な合意を示す最初の自動メトリクスです。
SelfEvalはまた、生成モデルは、差別モデルと比較して、Winogroundイメージスコアのような挑戦的なタスクにおいて、競争力のある認識性能を示すことも明らかにしている。
拡散モデルの容易かつ信頼性の高い自動評価を可能にすることを願っている。
関連論文リスト
- Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。
DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。
我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文 参考訳(メタデータ) (2024-11-23T10:06:18Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models [23.09033991200197]
新しいパーソナライズ技術は、特定のテーマやスタイルのイメージを作成するために、事前訓練されたベースモデルをカスタマイズするために提案されている。
このような軽量なソリューションは、パーソナライズされたモデルが不正なデータからトレーニングされているかどうかに関して、新たな懸念を生じさせる。
我々は、ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて、不正なデータ使用を積極的に追跡する新しい手法であるSIRENを紹介する。
論文 参考訳(メタデータ) (2024-10-14T12:29:23Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Class-Conditional self-reward mechanism for improved Text-to-Image models [1.8434042562191815]
我々は、自己回帰モデルの概念に基づいて、テキストから画像への生成AIモデルに匹敵するビジョンを導入する。
このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルによって機能する。
既存の商用および研究用テキスト・ツー・イメージ・モデルよりも60%以上優れていると評価されている。
論文 参考訳(メタデータ) (2024-05-22T09:28:43Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction [2.3691158404002066]
生成した画像に対する自然表情反応からユーザの嗜好を自動的に評価する手法を開発し,テストする。
生成画像に対する表情反応(FERGI)のデータセットを収集し,複数の顔行動単位(AU)の活性化が生成画像のユーザ評価と高い相関性を示す。
我々は,AU推定モデルから入力を受け取るFAU-Net(Facial Action Units Neural Network)を開発し,テキスト・画像生成のためのユーザの好みを自動的に評価する。
論文 参考訳(メタデータ) (2023-12-05T23:33:49Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models [14.330863905963442]
生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。
ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。
次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
論文 参考訳(メタデータ) (2023-06-07T18:00:00Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。