論文の概要: VIEScore: Towards Explainable Metrics for Conditional Image Synthesis
Evaluation
- arxiv url: http://arxiv.org/abs/2312.14867v1
- Date: Fri, 22 Dec 2023 17:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 14:03:11.983430
- Title: VIEScore: Towards Explainable Metrics for Conditional Image Synthesis
Evaluation
- Title(参考訳): VIEScore: 条件付き画像合成評価のための説明可能なメトリクスを目指して
- Authors: Max Ku and Dongfu Jiang and Cong Wei and Xiang Yue and Wenhu Chen
- Abstract要約: VIESCOREは条件付き画像生成タスクを評価するためのVisual Instruction-Guided Explainable Metricsである。
条件付き画像タスクにおける7つの顕著なタスクに対するVIESCOREの評価を行った。
- 参考スコア(独自算出の注目度): 42.78940631469086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly advancing field of conditional image generation research,
challenges such as limited explainability lie in effectively evaluating the
performance and capabilities of various models. This paper introduces VIESCORE,
a Visual Instruction-guided Explainable metric for evaluating any conditional
image generation tasks. VIESCORE leverages general knowledge from Multimodal
Large Language Models (MLLMs) as the backbone and does not require training or
fine-tuning. We evaluate VIESCORE on seven prominent tasks in conditional image
tasks and found: (1) VIESCORE (GPT4-v) achieves a high Spearman correlation of
0.3 with human evaluations, while the human-to-human correlation is 0.45. (2)
VIESCORE (with open-source MLLM) is significantly weaker than GPT-4v in
evaluating synthetic images. (3) VIESCORE achieves a correlation on par with
human ratings in the generation tasks but struggles in editing tasks. With
these results, we believe VIESCORE shows its great potential to replace human
judges in evaluating image synthesis tasks.
- Abstract(参考訳): 条件付き画像生成研究の急速に進歩する分野では、様々なモデルの性能と能力を効果的に評価する上で、限定的な説明可能性などの課題がある。
本稿では、条件付き画像生成タスクを評価するための視覚指示誘導説明可能なメトリクスVIESCOREを紹介する。
VIESCOREは、Multimodal Large Language Models(MLLM)の一般的な知識をバックボーンとして活用し、トレーニングや微調整を必要としない。
条件付き画像タスクにおいて,VIESCOREを7つの重要なタスクで評価した結果,(1)VIESCORE(GPT4-v)は人間と0.3のスピアマン相関を高い精度で達成し,その相関は0.45であることがわかった。
2) VIESCORE (オープンソースMLLM) は合成画像の評価において GPT-4v よりも著しく弱い。
(3)VIESCOREは、生成タスクにおける人間の評価と同等に相関するが、編集タスクでは困難である。
これらの結果から,VIESCOREは画像合成タスクの評価において,人間の判断に取って代わる大きな可能性を秘めていると考えられる。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - A Surprising Failure? Multimodal LLMs and the NLVR Challenge [20.85272995912912]
本研究では,GPT-4V,Gemini Pro,オープンソースモデルIDEFICSの3つの最先端MLLMを,合成自然言語ビジョン推論タスクNLVR上で評価する。
合成画像と組み合わされた人文が与えられた場合、このタスクは、画像に関する文の真理値を決定するためにモデルを必要とする。
論文 参考訳(メタデータ) (2024-02-26T18:37:18Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition [10.411186945517148]
本稿では,サンプルレベルのテキスト記述を自然言語の監視に用いる新しい視覚言語モデルを提案する。
以上の結果から,本手法はベースライン法と比較して大きな改善をもたらすことが示唆された。
本研究では,メンタルヘルス症状推定の下流課題について,サンプルレベル記述を用いてトレーニングしたネットワークから得られた表現を評価した。
論文 参考訳(メタデータ) (2023-10-25T13:43:36Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - ImagenHub: Standardizing the evaluation of conditional image generation
models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文 参考訳(メタデータ) (2023-10-02T19:41:42Z) - Toward Verifiable and Reproducible Human Evaluation for Text-to-Image
Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。
本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。
人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文 参考訳(メタデータ) (2023-04-04T14:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。