論文の概要: Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark
- arxiv url: http://arxiv.org/abs/2211.12112v1
- Date: Tue, 22 Nov 2022 09:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:34:46.675979
- Title: Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark
- Title(参考訳): マルチタスクベンチマークによるテキスト対画像モデルの人間評価
- Authors: Vitali Petsiuk, Alexander E. Siemenn, Saisamrit Surbehera, Zad Chin,
Keith Tyser, Gregory Hunter, Arvind Raghavan, Yann Hicke, Bryan A. Plummer,
Ori Kerret, Tonio Buonassisi, Kate Saenko, Armando Solar-Lezama, Iddo Drori
- Abstract要約: テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
- 参考スコア(独自算出の注目度): 80.79082788458602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide a new multi-task benchmark for evaluating text-to-image models. We
perform a human evaluation comparing the most common open-source (Stable
Diffusion) and commercial (DALL-E 2) models. Twenty computer science AI
graduate students evaluated the two models, on three tasks, at three difficulty
levels, across ten prompts each, providing 3,600 ratings. Text-to-image
generation has seen rapid progress to the point that many recent models have
demonstrated their ability to create realistic high-resolution images for
various prompts. However, current text-to-image methods and the broader body of
research in vision-language understanding still struggle with intricate text
prompts that contain many objects with multiple attributes and relationships.
We introduce a new text-to-image benchmark that contains a suite of thirty-two
tasks over multiple applications that capture a model's ability to handle
different features of a text prompt. For example, asking a model to generate a
varying number of the same object to measure its ability to count or providing
a text prompt with several objects that each have a different attribute to
identify its ability to match objects and attributes correctly. Rather than
subjectively evaluating text-to-image results on a set of prompts, our new
multi-task benchmark consists of challenge tasks at three difficulty levels
(easy, medium, and hard) and human ratings for each generated image.
- Abstract(参考訳): テキストから画像へのモデルを評価するための新しいマルチタスクベンチマークを提供する。
我々は,最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルの比較を行う。
20人のコンピュータサイエンスの大学院生が3つのタスクで、それぞれ10のプロンプトで2つのモデルを評価し、3600のレーティングを提供した。
テキストから画像への生成は、多くの最近のモデルが様々なプロンプトで現実的な高解像度画像を作成する能力を示している点まで急速に進歩している。
しかし、現在のテキストから画像への方法や視覚言語理解に関するより広範な研究は、複数の属性と関係を持つ多くのオブジェクトを含む複雑なテキストプロンプトに未だに苦労している。
テキストプロンプトのさまざまな機能を扱うモデルの能力をキャプチャする複数のアプリケーションに対して,32タスクのスイートを含む,新たなtext-to-imageベンチマークを導入する。
例えば、モデルに同じオブジェクトのさまざまな数を生成するように要求したり、異なる属性を持つ複数のオブジェクトでテキストプロンプトを計測したりすることで、オブジェクトと属性を正しく一致させることができる。
提案するマルチタスク・ベンチマークは,複数のプロンプトに対してテキスト・ツー・イメージの結果を主観的に評価するのではなく,3つの難易度(易易度,中度,硬度)の課題タスクと,生成された画像に対する人間の評価からなる。
関連論文リスト
- Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval [15.074592583852167]
我々は,参照画像と並行してテキストフィードバックを利用して画像を取得するテキスト条件付き画像検索の課題に焦点をあてる。
そこで我々は,これらを「見る場所」(Semantic Feature Attention) と「変化の仕方」の2つの主要なステップで解決する新しいフレームワーク SAC を提案する。
我々のアーキテクチャは、他の最先端技術で必要となる様々なモジュールを不要にすることで、テキスト認識画像機能の生成をいかに効率化するかを示す。
論文 参考訳(メタデータ) (2020-09-03T06:55:23Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。