論文の概要: How good are deep models in understanding\\ the generated images?
- arxiv url: http://arxiv.org/abs/2208.10760v1
- Date: Tue, 23 Aug 2022 06:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:20:31.281523
- Title: How good are deep models in understanding\\ the generated images?
- Title(参考訳): 生成した画像の理解における深層モデルはどの程度優れているか?
- Authors: Ali Borji
- Abstract要約: オブジェクト認識と視覚的質問応答タスクのために、生成画像の2つのセットを収集する。
オブジェクト認識では、10の最先端オブジェクト認識モデルのうち最高のモデルが、約60%と80%のトップ-1とトップ5の精度を達成する。
VQAでは、50の画像で241のバイナリ質問に回答すると77.3%のスコアが与えられる。
- 参考スコア(独自算出の注目度): 47.64219291655723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: My goal in this paper is twofold: to study how well deep models can
understand the images generated by DALL-E 2 and Midjourney, and to
quantitatively evaluate these generative models. Two sets of generated images
are collected for object recognition and visual question answering (VQA) tasks.
On object recognition, the best model, out of 10 state-of-the-art object
recognition models, achieves about 60\% and 80\% top-1 and top-5 accuracy,
respectively. These numbers are much lower than the best accuracy on the
ImageNet dataset (91\% and 99\%). On VQA, the OFA model scores 77.3\% on
answering 241 binary questions across 50 images. This model scores 94.7\% on
the binary VQA-v2 dataset. Humans are able to recognize the generated images
and answer questions on them easily. We conclude that a) deep models struggle
to understand the generated content, and may do better after fine-tuning, and
b) there is a large distribution shift between the generated images and the
real photographs. The distribution shift appears to be category-dependent. Data
is available at:
https://drive.google.com/file/d/1n2nCiaXtYJRRF2R73-LNE3zggeU_HeH0/view?usp=sharing.
- Abstract(参考訳): この論文の目標は2つある: dall-e 2 と midjourney が生成した画像を深く理解し、これらの生成モデルを定量的に評価することである。
オブジェクト認識と視覚質問応答(vqa)タスクのために2つの生成画像が収集される。
オブジェクト認識では、10の最先端オブジェクト認識モデルのうち、それぞれ60\%と80\%のトップ-1とトップ5の精度を達成している。
これらの数値は、ImageNetデータセット(91\%と99\%)の最高の精度よりもはるかに低い。
VQAでは、50の画像で241のバイナリ質問に答えると77.3\%のOFAスコアが与えられる。
このモデルは、バイナリVQA-v2データセットで94.7\%となる。
人間は生成された画像を認識し、簡単に質問に答えることができる。
結論として
a) 深層モデルが生成した内容を理解するのに苦労し、微調整後に改善する可能性があること、
b)生成された画像と実際の写真との間には大きな分布シフトがある。
分布シフトはカテゴリー依存であるようだ。
https://drive.google.com/file/d/1n2nCiaXtYJRRF2R73-LNE3zggeU_HeH0/view?
usp=共有。
関連論文リスト
- How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold [50.33428591760124]
学習データセットにおける概念の頻度とモデルを模倣する能力の関係について検討する。
我々は,複数のモデルをスクラッチからトレーニングする余剰コストを発生させることなく,模倣閾値を推定する効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:28:14Z) - Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering [13.490305443938817]
我々は,新しい評価指標であるI-HallA (Image Hallucination Evaluation with Question Answering)を紹介する。
I-HallAは視覚的質問応答(VQA)を用いて生成画像の事実性を測定する
我々はI-HallAを用いて5つのテキスト・ツー・イメージモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できない場合が多いことを明らかにした。
論文 参考訳(メタデータ) (2024-09-19T13:51:21Z) - Diverse, Difficult, and Odd Instances (D2O): A New Test Set for Object
Classification [47.64219291655723]
既存のテストセットと十分に異なるD2Oと呼ばれる新しいテストセットを導入します。
私たちのデータセットには、36のカテゴリにまたがる8,060のイメージが含まれており、そのうち29がImageNetに表示されています。
私たちのデータセットで最高のTop-1精度は約60%で、ImageNetで91%のTop-1精度よりもはるかに低いです。
論文 参考訳(メタデータ) (2023-01-29T19:58:32Z) - BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models [47.64219291655723]
我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
論文 参考訳(メタデータ) (2023-01-28T00:03:44Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Rethinking Recurrent Neural Networks and Other Improvements for Image
Classification [1.5990720051907859]
画像認識モデルの設計において,RNNを付加層として統合することを提案する。
また、複数のモデルを用いて専門家による予測を生成するエンド・ツー・エンドのマルチモデルアンサンブルも開発している。
私たちのモデルは、Surreyデータセットに新しいレコードを設定します。
論文 参考訳(メタデータ) (2020-07-30T00:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。