論文の概要: Evaluating Numerical Reasoning in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2406.14774v1
- Date: Thu, 20 Jun 2024 22:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 15:12:21.180572
- Title: Evaluating Numerical Reasoning in Text-to-Image Models
- Title(参考訳): テキスト・画像モデルにおける数値推論の評価
- Authors: Ivana Kajić, Olivia Wiles, Isabela Albuquerque, Matthias Bauer, Su Wang, Jordi Pont-Tuset, Aida Nematzadeh,
- Abstract要約: 難易度が異なる数値推論課題におけるテキスト・ツー・イメージ・モデルの評価を行った。
もっとも先進的なモデルでさえ、初歩的な数値スキルしか持たないことを示す。
数値推論評価のための新しいベンチマークであるGeckoNumにプロンプト、生成された画像、人間のアノテーションをバンドルする。
- 参考スコア(独自算出の注目度): 16.034479049513582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generative models are capable of producing high-quality images that often faithfully depict concepts described using natural language. In this work, we comprehensively evaluate a range of text-to-image models on numerical reasoning tasks of varying difficulty, and show that even the most advanced models have only rudimentary numerical skills. Specifically, their ability to correctly generate an exact number of objects in an image is limited to small numbers, it is highly dependent on the context the number term appears in, and it deteriorates quickly with each successive number. We also demonstrate that models have poor understanding of linguistic quantifiers (such as "a few" or "as many as"), the concept of zero, and struggle with more advanced concepts such as partial quantities and fractional representations. We bundle prompts, generated images and human annotations into GeckoNum, a novel benchmark for evaluation of numerical reasoning.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは、しばしば自然言語を用いて記述された概念を忠実に描写する高品質な画像を作成することができる。
本研究では,難易度が異なる数値推論課題におけるテキスト・ツー・イメージ・モデルの範囲を包括的に評価し,最も先進的なモデルでも初歩的な数値スキルしか持たないことを示す。
具体的には、画像中の正確なオブジェクト数を正確に生成する能力は、少数の数に限られており、その数項が現れるコンテキストに大きく依存しており、各連続する数で急速に劣化する。
また、モデルが言語量化子(「数」や「数」など)の理解が乏しいこと、ゼロの概念、部分量や分数表現といったより高度な概念に苦慮していることも示している。
数値推論評価のための新しいベンチマークであるGeckoNumにプロンプト、生成された画像、人間のアノテーションをバンドルする。
関連論文リスト
- Visual Enumeration is Challenging for Large-scale Generative AI [0.08192907805418582]
人間は、数えなくても、視覚的なシーンの物体の数を簡単に判断できる。
大規模生成人工知能(AI)システムに人間のような数感覚があるかどうかを考察する。
論文 参考訳(メタデータ) (2024-01-09T18:18:32Z) - Exploring the Numerical Reasoning Capabilities of Language Models: A
Comprehensive Analysis on Tabular Data [10.124148115680315]
本研究では,4つのレベルに10種類以上の推論型を持つ数値推論スキルのための階層型分類法を提案する。
我々は、それらに特有の推論課題を特定するために、最先端モデルの包括的評価を行う。
以上の結果から,すべての数値推論型に対してモデルが常に排他的でないことが示唆された。
論文 参考訳(メタデータ) (2023-11-03T20:05:30Z) - Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。
本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文 参考訳(メタデータ) (2023-06-03T21:39:07Z) - Teaching CLIP to Count to Ten [18.703050317383322]
大規模視覚言語モデル(VLM)の定量的理解を改善するための,シンプルで効果的な手法を提案する。
そこで本研究では,既存のVLMを本来の目的に合わせて微調整するために,新たな計数コントラスト損失を提案する。
私たちの知る限りでは、この作業はCLIPの機能をオブジェクトカウントに拡張した最初のものです。
論文 参考訳(メタデータ) (2023-02-23T14:43:53Z) - Character-Aware Models Improve Visual Text Rendering [57.19915686282047]
現在の画像生成モデルは、十分に整形されたビジュアルテキストを生成するのに苦労している。
文字認識モデルは、新しい綴りタスクに大きな利益をもたらす。
われわれのモデルでは、ビジュアルスペルの精度は比較的高く、稀な単語の競合よりも30以上の精度が向上した。
論文 参考訳(メタデータ) (2022-12-20T18:59:23Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。