論文の概要: VIEScore: Towards Explainable Metrics for Conditional Image Synthesis
Evaluation
- arxiv url: http://arxiv.org/abs/2312.14867v1
- Date: Fri, 22 Dec 2023 17:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 14:03:11.983430
- Title: VIEScore: Towards Explainable Metrics for Conditional Image Synthesis
Evaluation
- Title(参考訳): VIEScore: 条件付き画像合成評価のための説明可能なメトリクスを目指して
- Authors: Max Ku and Dongfu Jiang and Cong Wei and Xiang Yue and Wenhu Chen
- Abstract要約: VIESCOREは条件付き画像生成タスクを評価するためのVisual Instruction-Guided Explainable Metricsである。
条件付き画像タスクにおける7つの顕著なタスクに対するVIESCOREの評価を行った。
- 参考スコア(独自算出の注目度): 42.78940631469086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly advancing field of conditional image generation research,
challenges such as limited explainability lie in effectively evaluating the
performance and capabilities of various models. This paper introduces VIESCORE,
a Visual Instruction-guided Explainable metric for evaluating any conditional
image generation tasks. VIESCORE leverages general knowledge from Multimodal
Large Language Models (MLLMs) as the backbone and does not require training or
fine-tuning. We evaluate VIESCORE on seven prominent tasks in conditional image
tasks and found: (1) VIESCORE (GPT4-v) achieves a high Spearman correlation of
0.3 with human evaluations, while the human-to-human correlation is 0.45. (2)
VIESCORE (with open-source MLLM) is significantly weaker than GPT-4v in
evaluating synthetic images. (3) VIESCORE achieves a correlation on par with
human ratings in the generation tasks but struggles in editing tasks. With
these results, we believe VIESCORE shows its great potential to replace human
judges in evaluating image synthesis tasks.
- Abstract(参考訳): 条件付き画像生成研究の急速に進歩する分野では、様々なモデルの性能と能力を効果的に評価する上で、限定的な説明可能性などの課題がある。
本稿では、条件付き画像生成タスクを評価するための視覚指示誘導説明可能なメトリクスVIESCOREを紹介する。
VIESCOREは、Multimodal Large Language Models(MLLM)の一般的な知識をバックボーンとして活用し、トレーニングや微調整を必要としない。
条件付き画像タスクにおいて,VIESCOREを7つの重要なタスクで評価した結果,(1)VIESCORE(GPT4-v)は人間と0.3のスピアマン相関を高い精度で達成し,その相関は0.45であることがわかった。
2) VIESCORE (オープンソースMLLM) は合成画像の評価において GPT-4v よりも著しく弱い。
(3)VIESCOREは、生成タスクにおける人間の評価と同等に相関するが、編集タスクでは困難である。
これらの結果から,VIESCOREは画像合成タスクの評価において,人間の判断に取って代わる大きな可能性を秘めていると考えられる。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - LLMs as Evaluators: A Novel Approach to Evaluate Bug Report Summarization [9.364214238045317]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示した。
本研究では,LSMがバグレポートの要約を効果的に評価できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-01T06:30:39Z) - Evaluating Image Review Ability of Vision Language Models [25.846728716526766]
本稿では,大規模視覚言語モデル(LVLM)を用いて画像のレビューテキストを生成する方法について検討する。
LVLMが画像のレビューを行う能力は完全には理解されておらず、レビュー能力の方法論的な評価の必要性が強調されている。
論文 参考訳(メタデータ) (2024-02-19T13:16:10Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。