Fugu-MT 論文翻訳(概要): VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation

論文の概要: VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation

arxiv url: http://arxiv.org/abs/2312.14867v1
Date: Fri, 22 Dec 2023 17:45:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 14:03:11.983430
Title: VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation
Title（参考訳）: VIEScore: 条件付き画像合成評価のための説明可能なメトリクスを目指して
Authors: Max Ku and Dongfu Jiang and Cong Wei and Xiang Yue and Wenhu Chen
Abstract要約: VIESCOREは条件付き画像生成タスクを評価するためのVisual Instruction-Guided Explainable Metricsである。条件付き画像タスクにおける7つの顕著なタスクに対するVIESCOREの評価を行った。
参考スコア（独自算出の注目度）: 42.78940631469086
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the rapidly advancing field of conditional image generation research, challenges such as limited explainability lie in effectively evaluating the performance and capabilities of various models. This paper introduces VIESCORE, a Visual Instruction-guided Explainable metric for evaluating any conditional image generation tasks. VIESCORE leverages general knowledge from Multimodal Large Language Models (MLLMs) as the backbone and does not require training or fine-tuning. We evaluate VIESCORE on seven prominent tasks in conditional image tasks and found: (1) VIESCORE (GPT4-v) achieves a high Spearman correlation of 0.3 with human evaluations, while the human-to-human correlation is 0.45. (2) VIESCORE (with open-source MLLM) is significantly weaker than GPT-4v in evaluating synthetic images. (3) VIESCORE achieves a correlation on par with human ratings in the generation tasks but struggles in editing tasks. With these results, we believe VIESCORE shows its great potential to replace human judges in evaluating image synthesis tasks.
Abstract（参考訳）: 条件付き画像生成研究の急速に進歩する分野では、様々なモデルの性能と能力を効果的に評価する上で、限定的な説明可能性などの課題がある。本稿では、条件付き画像生成タスクを評価するための視覚指示誘導説明可能なメトリクスVIESCOREを紹介する。 VIESCOREは、Multimodal Large Language Models(MLLM)の一般的な知識をバックボーンとして活用し、トレーニングや微調整を必要としない。条件付き画像タスクにおいて,VIESCOREを7つの重要なタスクで評価した結果,(1)VIESCORE(GPT4-v)は人間と0.3のスピアマン相関を高い精度で達成し,その相関は0.45であることがわかった。 2) VIESCORE (オープンソースMLLM) は合成画像の評価において GPT-4v よりも著しく弱い。 (3)VIESCOREは、生成タスクにおける人間の評価と同等に相関するが、編集タスクでは困難である。これらの結果から,VIESCOREは画像合成タスクの評価において,人間の判断に取って代わる大きな可能性を秘めていると考えられる。

関連論文リスト

A Unified Agentic Framework for Evaluating Conditional Image Generation [66.25099219134441]
コンディショナル画像生成は、コンテンツのパーソナライズ能力において大きな注目を集めている。本稿では,条件付き画像生成タスクを包括的に評価するための統合エージェントフレームワークCIGEvalを紹介する。
論文参考訳（メタデータ） (2025-04-09T17:04:14Z)
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation [36.40760924116748]
VQA(Visual Question Answering)の課題に対処するためにMLLM(Multimodal Large Language Models)が登場した。既存の評価手法では、視覚画像のQ&Aペアを設計するために必要な人的負担がかなり大きいため、限界に直面している。本研究では,モデルが質問を自動的に生成し,他のモデルからの回答のピアレビュー評価を行うことのできる,教師なしピアレビューMLLM評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T07:15:41Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
LLMs as Evaluators: A Novel Approach to Evaluate Bug Report Summarization [9.364214238045317]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示した。本研究では,LSMがバグレポートの要約を効果的に評価できるかどうかを検討する。
論文参考訳（メタデータ） (2024-09-01T06:30:39Z)
Evaluating Image Review Ability of Vision Language Models [25.846728716526766]
本稿では,大規模視覚言語モデル(LVLM)を用いて画像のレビューテキストを生成する方法について検討する。 LVLMが画像のレビューを行う能力は完全には理解されておらず、レビュー能力の方法論的な評価の必要性が強調されている。
論文参考訳（メタデータ） (2024-02-19T13:16:10Z)
Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文参考訳（メタデータ） (2024-02-11T06:44:11Z)
GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文参考訳（メタデータ） (2023-11-02T16:11:09Z)
Collaborative Evaluation: Exploring the Synergy of Large Language Models and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。