論文の概要: LLMScore: Unveiling the Power of Large Language Models in Text-to-Image
Synthesis Evaluation
- arxiv url: http://arxiv.org/abs/2305.11116v1
- Date: Thu, 18 May 2023 16:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 13:48:13.676528
- Title: LLMScore: Unveiling the Power of Large Language Models in Text-to-Image
Synthesis Evaluation
- Title(参考訳): LLMScore:テキストと画像の合成評価における大規模言語モデルのパワーの実現
- Authors: Yujie Lu, Xianjun Yang, Xiujun Li, Xin Eric Wang, William Yang Wang
- Abstract要約: 既存のテキスト対画像合成の自動評価は、画像とテキストのマッチングスコアしか提供できない。
マルチグラニュラリティ合成による評価スコアを提供する新しいフレームワークであるLLMScoreを提案する。
- 参考スコア(独自算出の注目度): 72.28170752443224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing automatic evaluation on text-to-image synthesis can only provide an
image-text matching score, without considering the object-level
compositionality, which results in poor correlation with human judgments. In
this work, we propose LLMScore, a new framework that offers evaluation scores
with multi-granularity compositionality. LLMScore leverages the large language
models (LLMs) to evaluate text-to-image models. Initially, it transforms the
image into image-level and object-level visual descriptions. Then an evaluation
instruction is fed into the LLMs to measure the alignment between the
synthesized image and the text, ultimately generating a score accompanied by a
rationale. Our substantial analysis reveals the highest correlation of LLMScore
with human judgments on a wide range of datasets (Attribute Binding Contrast,
Concept Conjunction, MSCOCO, DrawBench, PaintSkills). Notably, our LLMScore
achieves Kendall's tau correlation with human evaluations that is 58.8% and
31.2% higher than the commonly-used text-image matching metrics CLIP and BLIP,
respectively.
- Abstract(参考訳): 既存のテキストから画像への合成に関する自動評価は、オブジェクトレベルの合成性を考慮せずに、画像とテキストのマッチングスコアしか提供できない。
本研究では,多粒度合成による評価スコアを提供する新しいフレームワークであるLLMScoreを提案する。
LLMScoreは、大きな言語モデル(LLM)を活用して、テキスト・ツー・イメージモデルを評価する。
まず、イメージをイメージレベルおよびオブジェクトレベルのビジュアル記述に変換する。
そして、LCMに評価指示を入力し、合成画像とテキストとのアライメントを測定し、最終的に合理性を伴うスコアを生成する。
以上の結果から, LLMScoreと人的判断との相関は, 幅広いデータセット(属性結合コントラスト, 概念結合, MSCOCO, DrawBench, PaintSkills)において最も高い。
特に,我々のLLMScoreは,一般的なテキスト画像マッチング指標CLIPとBLIPよりも58.8%,31.2%高い評価値とのタウ相関を達成している。
関連論文リスト
- TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation [2.5398014196797605]
本研究では,人間の専門知識とLarge Language Models(LLM)を統合するフレームワークであるtextbfInteractEvalを紹介する。
このフレームワークはThink-Aloud(TA)メソッドを使用して、チェックリストベースのテキスト評価の属性を生成する。
論文 参考訳(メタデータ) (2024-09-11T15:40:07Z) - A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Evaluating Image Review Ability of Vision Language Models [25.846728716526766]
本稿では,大規模視覚言語モデル(LVLM)を用いて画像のレビューテキストを生成する方法について検討する。
LVLMが画像のレビューを行う能力は完全には理解されておらず、レビュー能力の方法論的な評価の必要性が強調されている。
論文 参考訳(メタデータ) (2024-02-19T13:16:10Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。
本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。
Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文 参考訳(メタデータ) (2023-10-09T12:12:55Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。