論文の概要: Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of
Synthetic and Compositional Images
- arxiv url: http://arxiv.org/abs/2303.07274v2
- Date: Tue, 14 Mar 2023 21:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 10:35:26.071261
- Title: Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of
Synthetic and Compositional Images
- Title(参考訳): 常識を破る: なんてこった!
合成画像と合成画像の視覚言語ベンチマーク
- Authors: Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt,
Yuval Elovici, Gabriel Stanovsky, Roy Schwartz
- Abstract要約: ビジュアルコモンセンスのための新しいデータセットとベンチマークであるWHOOPS!を紹介します。
データセットは、デザイナによって作成された、意図的に常識を守るイメージで構成されています。
GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。
- 参考スコア(独自算出の注目度): 52.312031574476165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weird, unusual, and uncanny images pique the curiosity of observers because
they challenge commonsense. For example, an image released during the 2022
world cup depicts the famous soccer stars Lionel Messi and Cristiano Ronaldo
playing chess, which playfully violates our expectation that their competition
should occur on the football field. Humans can easily recognize and interpret
these unconventional images, but can AI models do the same? We introduce
WHOOPS!, a new dataset and benchmark for visual commonsense. The dataset is
comprised of purposefully commonsense-defying images created by designers using
publicly-available image generation tools like Midjourney. We consider several
tasks posed over the dataset. In addition to image captioning, cross-modal
matching, and visual question answering, we introduce a difficult explanation
generation task, where models must identify and explain why a given image is
unusual. Our results show that state-of-the-art models such as GPT3 and BLIP2
still lag behind human performance on WHOOPS!. We hope our dataset will inspire
the development of AI models with stronger visual commonsense reasoning
abilities. Data, models and code are available at the project website:
whoops-benchmark.github.io
- Abstract(参考訳): 弱く、異常で、不気味なイメージは、観察者の好奇心を喚起する。
例えば、2022年のワールドカップ中に公開された画像は、有名なサッカースターのライオネル・メッシとクリスティアーノ・ロナルドがチェスをしている様子を描いている。
人間はこれらの非伝統的なイメージを容易に認識し解釈できますが、AIモデルも同じことができますか?
私たちは、visual commonsenseの新しいデータセットとベンチマークであるwhoops!を紹介します。
データセットは、midjourneyのような一般公開された画像生成ツールを使用して設計者が作成した、意図的に常識に準拠したイメージで構成されている。
データセット上のいくつかのタスクについて検討する。
画像キャプション, クロスモーダルマッチング, 視覚的質問応答に加えて, モデルが与えられた画像がなぜ異常であるかを識別し, 説明しなければならない, 困難な説明生成タスクを導入する。
GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。
.
われわれのデータセットは、より強力なビジュアルコモンセンス推論能力を持つAIモデルの開発を促すことを願っている。
データ、モデル、コードはプロジェクトのwebサイト:whoops-benchmark.github.ioで入手できる。
関連論文リスト
- COFAR: Commonsense and Factual Reasoning in Image Search [2.6354148238224697]
現代の人工知能モデルよりも人間を優越させる特徴の1つは、視覚的に明らかなもの以上の画像を解釈できる能力である。
我々は、画像内の名前付き視覚的エンティティを百科事典知識のゲートウェイとして扱う、知識検索拡張マルチモーダルトランス(KRAMT)という統合されたフレームワークを提案する。
この統合されたフレームワークは、コモンセンスと事実推論を必要とする画像検索を実行するために使用される。
論文 参考訳(メタデータ) (2022-10-16T14:43:13Z) - WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。
私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。
我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文 参考訳(メタデータ) (2022-07-25T23:57:44Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generative Transformers [83.0924442074443]
マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。
対象の認識,対象のカウント,色認識,空間的関係理解の4つの視覚的推論スキルを測定した。
近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。
図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文 参考訳(メタデータ) (2021-12-01T19:41:03Z) - Experimenting with Self-Supervision using Rotation Prediction for Image
Captioning [0.0]
画像キャプションは、コンピュータビジョンと自然言語処理を融合させる人工知能の分野における課題である。
エンコーダはOpenImagesデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)である。
回転プレテキストタスクを用いて,画像の特徴を自己教師付きで学習する。
論文 参考訳(メタデータ) (2021-07-28T00:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。