論文の概要: EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2406.16562v2
- Date: Thu, 27 Jun 2024 03:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:27:13.217979
- Title: EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models
- Title(参考訳): EVALALIGN:テキスト・画像・モデル評価のためのヒューマン・アラインデータによる細調整型マルチモーダルLCM
- Authors: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Mengping Yang, Cheng Zhang, Hao Li,
- Abstract要約: EvalAlignは、その正確さ、安定性、微細な粒度を特徴とする計量である。
画像の忠実度とテキスト画像のアライメントという2つの重要な側面に焦点を当てた評価プロトコルを開発する。
24のテキスト・ツー・イメージ生成モデルに対する包括的なテストでは、EvalAlignは優れたメートル法安定性を提供するだけでなく、既存のメトリクスよりも人間の好みと密接に一致していることが示された。
- 参考スコア(独自算出の注目度): 16.18275805302776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancements in text-to-image generative models have been remarkable. Yet, the field suffers from a lack of evaluation metrics that accurately reflect the performance of these models, particularly lacking fine-grained metrics that can guide the optimization of the models. In this paper, we propose EvalAlign, a metric characterized by its accuracy, stability, and fine granularity. Our approach leverages the capabilities of Multimodal Large Language Models (MLLMs) pre-trained on extensive datasets. We develop evaluation protocols that focus on two key dimensions: image faithfulness and text-image alignment. Each protocol comprises a set of detailed, fine-grained instructions linked to specific scoring options, enabling precise manual scoring of the generated images. We Supervised Fine-Tune (SFT) the MLLM to align closely with human evaluative judgments, resulting in a robust evaluation model. Our comprehensive tests across 24 text-to-image generation models demonstrate that EvalAlign not only provides superior metric stability but also aligns more closely with human preferences than existing metrics, confirming its effectiveness and utility in model assessment.
- Abstract(参考訳): 近年のテキスト・画像生成モデルの発展は目覚ましい。
しかし、この分野はこれらのモデルの性能を正確に反映する評価指標の欠如に悩まされており、特にモデルの最適化を導くための詳細な指標が欠如している。
本稿では,その精度,安定性,粒度を特徴とする計量であるEvalAlignを提案する。
我々のアプローチは、広範囲なデータセットで事前訓練されたMLLM(Multimodal Large Language Models)の機能を活用する。
画像の忠実度とテキスト画像のアライメントという2つの重要な側面に焦点を当てた評価プロトコルを開発する。
各プロトコルは、特定のスコアリングオプションにリンクされた詳細できめ細かな命令で構成されており、生成された画像の正確な手動スコアリングを可能にする。
我々は,人間の評価判断と密接に一致させるために,MLLMのファインチューン(SFT)を監督し,堅牢な評価モデルを得た。
24のテキスト・ツー・イメージ生成モデルを対象とした総合的なテストでは、EvalAlignは優れたメートル法安定性を提供するだけでなく、既存のメトリクスよりも人間の好みと密に一致し、モデルアセスメントにおけるその有効性と有用性を確認している。
関連論文リスト
- Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - OMNIINPUT: A Model-centric Evaluation Framework through Output
Distribution [31.00645110294068]
我々は,AI/MLモデルの予測品質を,可能なすべての入力に対して評価するモデル中心評価フレームワークOmniInputを提案する。
提案手法では, 学習モデルの入力と出力分布を求めるために, 効率的なサンプリング器を用いる。
実験により,OmniInputはモデル間のよりきめ細かい比較を可能にした。
論文 参考訳(メタデータ) (2023-12-06T04:53:12Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
視覚言語モデル(VLM)におけるOOD精度と校正誤差の両方を改善する頑健な微調整法を提案する。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。