論文の概要: Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models
- arxiv url: http://arxiv.org/abs/2412.09645v2
- Date: Mon, 16 Dec 2024 04:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:56.875856
- Title: Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models
- Title(参考訳): 評価エージェント:視覚生成モデルのための効率的で確率的な評価フレームワーク
- Authors: Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu,
- Abstract要約: 視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
- 参考スコア(独自算出の注目度): 51.067146460271466
- License:
- Abstract: Recent advancements in visual generative models have enabled high-quality image and video generation, opening diverse applications. However, evaluating these models often demands sampling hundreds or thousands of images or videos, making the process computationally expensive, especially for diffusion-based models with inherently slow sampling. Moreover, existing evaluation methods rely on rigid pipelines that overlook specific user needs and provide numerical results without clear explanations. In contrast, humans can quickly form impressions of a model's capabilities by observing only a few samples. To mimic this, we propose the Evaluation Agent framework, which employs human-like strategies for efficient, dynamic, multi-round evaluations using only a few samples per round, while offering detailed, user-tailored analyses. It offers four key advantages: 1) efficiency, 2) promptable evaluation tailored to diverse user needs, 3) explainability beyond single numerical scores, and 4) scalability across various models and tools. Experiments show that Evaluation Agent reduces evaluation time to 10% of traditional methods while delivering comparable results. The Evaluation Agent framework is fully open-sourced to advance research in visual generative models and their efficient evaluation.
- Abstract(参考訳): 視覚生成モデルの最近の進歩は、高品質な画像生成とビデオ生成を可能にし、多様な応用を開拓している。
しかしながら、これらのモデルを評価するには、数百から数千の画像やビデオをサンプリングする必要があることが多く、特に本質的に遅いサンプリングを伴う拡散モデルでは、計算コストがかかる。
さらに、既存の評価手法は、特定のユーザのニーズを見落とし、明確な説明なしに数値的な結果を提供する厳密なパイプラインに依存している。
対照的に、人間は少数のサンプルを観察することで、モデルの能力の印象を素早く形成することができる。
そこで本研究では,人間のような手法を用いて1ラウンドあたりのサンプル数点のみを用いて,効率よく,動的,多ラウンドな評価を行う評価エージェントフレームワークを提案する。
主な利点は4つある。
1) 効率性
2)多様なユーザニーズに合わせた迅速な評価。
3)単数点を超える説明可能性,及び
4) さまざまなモデルやツールにわたるスケーラビリティ。
実験によると、評価エージェントは評価時間を従来の手法の10%に短縮し、同等の結果を提供する。
評価エージェントフレームワークは、視覚生成モデルの研究と効率的な評価を促進するために、完全にオープンソースである。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Establishing a Unified Evaluation Framework for Human Motion Generation: A Comparative Analysis of Metrics [6.708543240320757]
本稿では,人体動作生成のための8つの評価指標について詳細に検討する。
我々は一貫したモデル比較を容易にするため、統一的な評価設定を通じて標準化されたプラクティスを提案する。
変形する多様性を分析して時間歪みの多様性を評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-05-13T12:10:57Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - A Unified Interactive Model Evaluation for Classification, Object
Detection, and Instance Segmentation in Computer Vision [31.441561710096877]
コンピュータビジョンにおける分類,オブジェクト検出,インスタンスセグメンテーションのための統一モデル評価を支援するために,オープンソースビジュアル分析ツールUni-Evaluatorを開発した。
我々の手法の背景にある重要な考え方は、異なるタスクにおける離散的および連続的な予測を統一された確率分布として定式化することである。
これらの分布に基づいて,1)モデルの性能を概観する行列ベースの可視化,2)モデルの性能が不十分な問題のあるデータサブセットを識別するテーブル視覚化,3)興味のあるサンプルを表示するグリッド視覚化を開発する。
論文 参考訳(メタデータ) (2023-08-09T18:11:28Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Operationalizing Specifications, In Addition to Test Sets for Evaluating
Constrained Generative Models [17.914521288548844]
生成モデルのスケールは、評価自体が実行される抽象レベルを高めるために利用することができると論じる。
我々の勧告は、生成品質を評価するための強力な手段として仕様を活用することに基づいている。
論文 参考訳(メタデータ) (2022-11-19T06:39:43Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。