論文の概要: TeTIm-Eval: a novel curated evaluation data set for comparing
text-to-image models
- arxiv url: http://arxiv.org/abs/2212.07839v1
- Date: Thu, 15 Dec 2022 13:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 15:38:15.191154
- Title: TeTIm-Eval: a novel curated evaluation data set for comparing
text-to-image models
- Title(参考訳): TeTIm-Eval:テキストと画像のモデルを比較するための新しい評価データセット
- Authors: Federico A. Galatolo, Mario G. C. A. Cimino, Edoardo Cogotti
- Abstract要約: テキスト・ツー・イメージ・モデルの評価と比較は難しい問題です。
本稿では,<i>i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i</i>i>i>i>i</i>i>i>i>i>i>i>i</i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i</i>i>i>i</i>i>i>i</i>i>i</i>i>i</i>
初期の実験結果から,ヒト判定の精度はCLIPスコアと完全に一致していることが明らかとなった。
- 参考スコア(独自算出の注目度): 1.1252184947601962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating and comparing text-to-image models is a challenging problem.
Significant advances in the field have recently been made, piquing interest of
various industrial sectors. As a consequence, a gold standard in the field
should cover a variety of tasks and application contexts. In this paper a novel
evaluation approach is experimented, on the basis of: (i) a curated data set,
made by high-quality royalty-free image-text pairs, divided into ten
categories; (ii) a quantitative metric, the CLIP-score, (iii) a human
evaluation task to distinguish, for a given text, the real and the generated
images. The proposed method has been applied to the most recent models, i.e.,
DALLE2, Latent Diffusion, Stable Diffusion, GLIDE and Craiyon. Early
experimental results show that the accuracy of the human judgement is fully
coherent with the CLIP-score. The dataset has been made available to the
public.
- Abstract(参考訳): テキストと画像のモデルの評価と比較は難しい問題です。
この分野は近年大きく進歩し、様々な産業分野の関心が高まっている。
結果として、フィールドのゴールド標準はさまざまなタスクとアプリケーションコンテキストをカバーするべきです。
本稿では,新しい評価手法について,以下のことに基づいて実験する。
(i)高品質のロイヤリティフリーの画像テキストペアで作成され、10のカテゴリに分けられたキュレートデータセット
(ii)量的計量、CLIPスコア
三 人間の評価課題であって、所与のテキストに対して、実画像及び生成画像とを区別すること。
提案手法は最新のモデルであるDALLE2, Latent Diffusion, Staable Diffusion, GLIDE, Craiyonに適用されている。
早期実験の結果,ヒト判定の精度はCLIPスコアと完全に一致していることがわかった。
データセットは一般公開されている。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Holistic Evaluation for Interleaved Text-and-Image Generation [19.041251355695973]
我々はインターリーブドベンチ(InterleavedBench)について紹介する。
また、GPT-4oをベースとした強力な基準フリーメトリックであるInterleavedEvalを提案し、正確で説明可能な評価を行う。
論文 参考訳(メタデータ) (2024-06-20T18:07:19Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - TISE: A Toolbox for Text-to-Image Synthesis Evaluation [9.092600296992925]
単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-02T16:39:35Z) - Evaluating Text Coherence at Sentence and Paragraph Levels [17.99797111176988]
本稿では,既存の文順序付け手法の段落順序付けタスクへの適応について検討する。
また、ミニデータセットとノイズの多いデータセットを人工的に作成することで、既存のモデルの学習性と堅牢性を比較する。
我々は、リカレントグラフニューラルネットワークに基づくモデルがコヒーレンスモデリングの最適選択であると結論付けている。
論文 参考訳(メタデータ) (2020-06-05T03:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。