論文の概要: Domain-agnostic and Multi-level Evaluation of Generative Models
- arxiv url: http://arxiv.org/abs/2301.08750v1
- Date: Fri, 20 Jan 2023 14:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 16:43:15.944209
- Title: Domain-agnostic and Multi-level Evaluation of Generative Models
- Title(参考訳): 生成モデルのドメイン非依存・多レベル評価
- Authors: Girmaw Abebe Tadesse, Jannis Born, Celia Cintas, William Ogallo,
Dmitry Zubarev, Matteo Manica, Komminist Weldemariam
- Abstract要約: 遺伝子mOdels(O)の多レベル性能評価のためのフレームワークを提案する。
MPEGOは、サブ機能ベースの低レベル評価からグローバル機能ベースの高レベル評価まで、パフォーマンスを階層的に定量化することを目的としている。
MPEGOにおける中間段階の妥当性を検討するためのアブレーション研究を行った。
- 参考スコア(独自算出の注目度): 6.59118510067989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the capabilities of generative models heavily improved in different
domains (images, text, graphs, molecules, etc.), their evaluation metrics
largely remain based on simplified quantities or manual inspection with limited
practicality. To this end, we propose a framework for Multi-level Performance
Evaluation of Generative mOdels (MPEGO), which could be employed across
different domains. MPEGO aims to quantify generation performance
hierarchically, starting from a sub-feature-based low-level evaluation to a
global features-based high-level evaluation. MPEGO offers great customizability
as the employed features are entirely user-driven and can thus be highly
domain/problem-specific while being arbitrarily complex (e.g., outcomes of
experimental procedures). We validate MPEGO using multiple generative models
across several datasets from the material discovery domain. An ablation study
is conducted to study the plausibility of intermediate steps in MPEGO. Results
demonstrate that MPEGO provides a flexible, user-driven, and multi-level
evaluation framework, with practical insights on the generation quality. The
framework, source code, and experiments will be available at
https://github.com/GT4SD/mpego.
- Abstract(参考訳): 生成モデルの能力は、異なるドメイン(画像、テキスト、グラフ、分子など)で大きく改善されているが、その評価基準は、実用性に制限のある、単純化された量や手作業による検査に基づいている。
そこで本稿では,様々な領域にまたがって適用可能な生成モデル(mpego)の多レベル性能評価のためのフレームワークを提案する。
MPEGOは、サブ機能ベースの低レベル評価からグローバル機能ベースの高レベル評価まで、世代パフォーマンスを階層的に定量化することを目的としている。
MPEGOは、採用されている機能が完全にユーザ駆動であるため、任意に複雑でありながらドメイン/プロブレム固有のものになり得るため、カスタマイズ性が高い(例:実験手順の結果)。
材料発見領域から複数のデータセットにまたがる複数の生成モデルを用いてMPEGOを検証する。
MPEGOにおける中間段階の妥当性を検討するためのアブレーション研究を行った。
結果から,MPEGOはフレキシブルでユーザ主導型,マルチレベルの評価フレームワークであり,生成品質に関する実践的な洞察が得られた。
フレームワーク、ソースコード、実験はhttps://github.com/GT4SD/mpego.comで公開される。
関連論文リスト
- BENCHAGENTS: Automated Benchmark Creation with Agent Interaction [16.4783894348333]
BENCHAGENTSは,大規模言語モデル(LLM)を体系的に活用し,複雑な機能のためのベンチマーク作成を自動化するフレームワークである。
我々は、BENCHAGENTSを用いて、テキスト生成時の計画と制約満足度に関連する機能を評価するベンチマークを作成する。
次に、これらのベンチマークを使用して、7つの最先端モデルを調査し、共通の障害モードとモデルの違いに関する新たな洞察を抽出する。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な"戦略基準"フォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの概念を紹介します。
本研究では,これらの概念を検索の強化と強化学習を通じて実装するTestAgentというエージェントベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。