論文の概要: Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of
Synthetic and Compositional Images
- arxiv url: http://arxiv.org/abs/2303.07274v3
- Date: Thu, 13 Jul 2023 16:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 17:10:36.915404
- Title: Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of
Synthetic and Compositional Images
- Title(参考訳): 常識を破る: なんてこった!
合成画像と合成画像の視覚言語ベンチマーク
- Authors: Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt,
Yuval Elovici, Gabriel Stanovsky, Roy Schwartz
- Abstract要約: ビジュアルコモンセンスのための新しいデータセットとベンチマークであるWHOOPS!を紹介します。
データセットは、デザイナによって作成された、意図的に常識を守るイメージで構成されています。
GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。
- 参考スコア(独自算出の注目度): 52.312031574476165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weird, unusual, and uncanny images pique the curiosity of observers because
they challenge commonsense. For example, an image released during the 2022
world cup depicts the famous soccer stars Lionel Messi and Cristiano Ronaldo
playing chess, which playfully violates our expectation that their competition
should occur on the football field. Humans can easily recognize and interpret
these unconventional images, but can AI models do the same? We introduce
WHOOPS!, a new dataset and benchmark for visual commonsense. The dataset is
comprised of purposefully commonsense-defying images created by designers using
publicly-available image generation tools like Midjourney. We consider several
tasks posed over the dataset. In addition to image captioning, cross-modal
matching, and visual question answering, we introduce a difficult explanation
generation task, where models must identify and explain why a given image is
unusual. Our results show that state-of-the-art models such as GPT3 and BLIP2
still lag behind human performance on WHOOPS!. We hope our dataset will inspire
the development of AI models with stronger visual commonsense reasoning
abilities. Data, models and code are available at the project website:
whoops-benchmark.github.io
- Abstract(参考訳): 弱く、異常で、不気味なイメージは、観察者の好奇心を喚起する。
例えば、2022年のワールドカップ中に公開された画像は、有名なサッカースターのライオネル・メッシとクリスティアーノ・ロナルドがチェスをしている様子を描いている。
人間はこれらの非伝統的なイメージを容易に認識し解釈できますが、AIモデルも同じことができますか?
私たちは、visual commonsenseの新しいデータセットとベンチマークであるwhoops!を紹介します。
データセットは、midjourneyのような一般公開された画像生成ツールを使用して設計者が作成した、意図的に常識に準拠したイメージで構成されている。
データセット上のいくつかのタスクについて検討する。
画像キャプション, クロスモーダルマッチング, 視覚的質問応答に加えて, モデルが与えられた画像がなぜ異常であるかを識別し, 説明しなければならない, 困難な説明生成タスクを導入する。
GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。
.
われわれのデータセットは、より強力なビジュアルコモンセンス推論能力を持つAIモデルの開発を促すことを願っている。
データ、モデル、コードはプロジェクトのwebサイト:whoops-benchmark.github.ioで入手できる。
関連論文リスト
- Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images [67.18010640829682]
我々は,AI生成画像がテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことを示す。
検索モデルのトレーニングデータにAI生成画像を含めると、目に見えない関連性バイアスが増す。
本研究では,目に見えない関連バイアスを軽減するための効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:22:58Z) - Towards Pragmatic Semantic Image Synthesis for Urban Scenes [4.36080478413575]
合成画像とラベル付きデータセットとラベルなしの実画像付きデータセットが与えられた場合、入力マスクの内容と実際の画像の外観で画像を生成することができるモデルを学ぶことが目的である。
合成画像は, パッチレベルでの高次特徴の違いをペナルティ化することにより, 生成画像の内容のガイドとして活用する。
対象領域のセマンティックな分布に過度に適合する1つの識別器を用いた以前の研究とは対照的に、画像全体の識別器と画像パッチ上のマルチスケール識別器を用いる。
論文 参考訳(メタデータ) (2023-05-16T18:01:12Z) - COFAR: Commonsense and Factual Reasoning in Image Search [2.6354148238224697]
現代の人工知能モデルよりも人間を優越させる特徴の1つは、視覚的に明らかなもの以上の画像を解釈できる能力である。
我々は、画像内の名前付き視覚的エンティティを百科事典知識のゲートウェイとして扱う、知識検索拡張マルチモーダルトランス(KRAMT)という統合されたフレームワークを提案する。
この統合されたフレームワークは、コモンセンスと事実推論を必要とする画像検索を実行するために使用される。
論文 参考訳(メタデータ) (2022-10-16T14:43:13Z) - WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。
私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。
我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文 参考訳(メタデータ) (2022-07-25T23:57:44Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。
図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文 参考訳(メタデータ) (2021-12-01T19:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。