論文の概要: SelfEval: Leveraging the discriminative nature of generative models for evaluation
- arxiv url: http://arxiv.org/abs/2311.10708v2
- Date: Wed, 27 Nov 2024 00:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 15:52:49.395608
- Title: SelfEval: Leveraging the discriminative nature of generative models for evaluation
- Title(参考訳): SelfEval: 評価のための生成モデルの識別特性を活用する
- Authors: Sai Saketh Rambhatla, Ishan Misra,
- Abstract要約: テキストから画像への生成拡散モデルのテキストアライメントを自動評価する方法を提案する。
提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いている。
- 参考スコア(独自算出の注目度): 30.239717220862143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an automated way to evaluate the text alignment of text-to-image generative diffusion models using standard image-text recognition datasets. Our method, called SelfEval, uses the generative model to compute the likelihood of real images given text prompts, and the likelihood can be used to perform recognition tasks with the generative model. We evaluate generative models on standard datasets created for multimodal text-image discriminative learning and assess fine-grained aspects of their performance: attribute binding, color recognition, counting, shape recognition, spatial understanding. Existing automated metrics rely on an external pretrained model like CLIP (VLMs) or LLMs, and are sensitive to the exact pretrained model and its limitations. SelfEval sidesteps these issues, and to the best of our knowledge, is the first automated metric to show a high degree of agreement for measuring text-faithfulness with the gold-standard human evaluations across multiple generative models, benchmarks and evaluation metrics. SelfEval also reveals that generative models showcase competitive recognition performance on challenging tasks such as Winoground image-score compared to discriminative models. We hope SelfEval enables easy and reliable automated evaluation for diffusion models.
- Abstract(参考訳): 本稿では,標準画像認識データセットを用いてテキストから画像への拡散モデルのテキストアライメントを自動評価する方法を提案する。
提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いており,生成モデルを用いて認識タスクを行うことが可能である。
マルチモーダルテキスト画像識別学習のために作成された標準データセットの生成モデルを評価し,属性バインディング,色認識,カウント,形状認識,空間的理解など,その性能のきめ細かい側面を評価する。
既存の自動メトリクスは、CLIP(VLM)やLLMのような外部事前トレーニングモデルに依存しており、正確な事前トレーニングモデルとその制限に敏感である。
SelfEvalはこれらの問題を横取りし、私たちの知る限りでは、複数の生成モデル、ベンチマーク、評価メトリクスをまたいだゴールドスタンダードな人間の評価とテキストの信頼度を測定するための、高度な合意を示す最初の自動メトリクスです。
SelfEvalはまた、生成モデルは、差別モデルと比較して、Winogroundイメージスコアのような挑戦的なタスクにおいて、競争力のある認識性能を示すことも明らかにしている。
拡散モデルの容易かつ信頼性の高い自動評価を可能にすることを願っている。
関連論文リスト
- Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。
DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。
我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文 参考訳(メタデータ) (2024-11-23T10:06:18Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models [23.09033991200197]
新しいパーソナライズ技術は、特定のテーマやスタイルのイメージを作成するために、事前訓練されたベースモデルをカスタマイズするために提案されている。
このような軽量なソリューションは、パーソナライズされたモデルが不正なデータからトレーニングされているかどうかに関して、新たな懸念を生じさせる。
我々は、ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて、不正なデータ使用を積極的に追跡する新しい手法であるSIRENを紹介する。
論文 参考訳(メタデータ) (2024-10-14T12:29:23Z) - Class-Conditional self-reward mechanism for improved Text-to-Image models [1.8434042562191815]
我々は、自己回帰モデルの概念に基づいて、テキストから画像への生成AIモデルに匹敵するビジョンを導入する。
このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルによって機能する。
既存の商用および研究用テキスト・ツー・イメージ・モデルよりも60%以上優れていると評価されている。
論文 参考訳(メタデータ) (2024-05-22T09:28:43Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Verifiable evaluations of machine learning models using zkSNARKs [40.538081946945596]
本研究は,zkSNARKによるモデル推論を用いたモデル評価の検証手法を提案する。
結果として得られたデータセット上のモデル出力のゼロ知識計算証明は、検証可能な評価証明にパッケージ化することができる。
実世界のモデルのサンプルでこれを初めてデモし、重要な課題と設計ソリューションを強調します。
論文 参考訳(メタデータ) (2024-02-05T02:21:11Z) - FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction [2.3691158404002066]
生成した画像に対する自然表情反応からユーザの嗜好を自動的に評価する手法を開発し,テストする。
生成画像に対する表情反応(FERGI)のデータセットを収集し,複数の顔行動単位(AU)の活性化が生成画像のユーザ評価と高い相関性を示す。
我々は,AU推定モデルから入力を受け取るFAU-Net(Facial Action Units Neural Network)を開発し,テキスト・画像生成のためのユーザの好みを自動的に評価する。
論文 参考訳(メタデータ) (2023-12-05T23:33:49Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models [14.330863905963442]
生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。
ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。
次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
論文 参考訳(メタデータ) (2023-06-07T18:00:00Z) - GMValuator: Similarity-based Data Valuation for Generative Models [41.76259565672285]
生成モデル評価器(GMValuator, Generative Model Valuator, GMValuator, GMValuator)を導入した。
GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。
論文 参考訳(メタデータ) (2023-04-21T02:02:02Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Residual Energy-Based Models for Text [46.22375671394882]
自動回帰言語モデルの世代は、統計的判別器によって実際のテキストと確実に区別できることを示す。
これは、自己回帰モデルが生成過程に(グローバルに正規化された)判別器を組み込むことで改善できることを示唆している。
論文 参考訳(メタデータ) (2020-04-06T13:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。