Fugu-MT 論文翻訳(概要): Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images

論文の概要: Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images

arxiv url: http://arxiv.org/abs/2303.07274v3
Date: Thu, 13 Jul 2023 16:36:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-17 17:10:36.915404
Title: Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images
Title（参考訳）: 常識を破る: なんてこった! 合成画像と合成画像の視覚言語ベンチマーク
Authors: Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz
Abstract要約: ビジュアルコモンセンスのための新しいデータセットとベンチマークであるWHOOPS!を紹介します。データセットは、デザイナによって作成された、意図的に常識を守るイメージで構成されています。 GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。
参考スコア（独自算出の注目度）: 52.312031574476165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weird, unusual, and uncanny images pique the curiosity of observers because they challenge commonsense. For example, an image released during the 2022 world cup depicts the famous soccer stars Lionel Messi and Cristiano Ronaldo playing chess, which playfully violates our expectation that their competition should occur on the football field. Humans can easily recognize and interpret these unconventional images, but can AI models do the same? We introduce WHOOPS!, a new dataset and benchmark for visual commonsense. The dataset is comprised of purposefully commonsense-defying images created by designers using publicly-available image generation tools like Midjourney. We consider several tasks posed over the dataset. In addition to image captioning, cross-modal matching, and visual question answering, we introduce a difficult explanation generation task, where models must identify and explain why a given image is unusual. Our results show that state-of-the-art models such as GPT3 and BLIP2 still lag behind human performance on WHOOPS!. We hope our dataset will inspire the development of AI models with stronger visual commonsense reasoning abilities. Data, models and code are available at the project website: whoops-benchmark.github.io
Abstract（参考訳）: 弱く、異常で、不気味なイメージは、観察者の好奇心を喚起する。例えば、2022年のワールドカップ中に公開された画像は、有名なサッカースターのライオネル・メッシとクリスティアーノ・ロナルドがチェスをしている様子を描いている。人間はこれらの非伝統的なイメージを容易に認識し解釈できますが、AIモデルも同じことができますか? 私たちは、visual commonsenseの新しいデータセットとベンチマークであるwhoops!を紹介します。データセットは、midjourneyのような一般公開された画像生成ツールを使用して設計者が作成した、意図的に常識に準拠したイメージで構成されている。データセット上のいくつかのタスクについて検討する。画像キャプション, クロスモーダルマッチング, 視覚的質問応答に加えて, モデルが与えられた画像がなぜ異常であるかを識別し, 説明しなければならない, 困難な説明生成タスクを導入する。 GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。 . われわれのデータセットは、より強力なビジュアルコモンセンス推論能力を持つAIモデルの開発を促すことを願っている。データ、モデル、コードはプロジェクトのwebサイト:whoops-benchmark.github.ioで入手できる。

関連論文リスト

Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。 ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文参考訳（メタデータ） (2024-09-24T08:46:13Z)
Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images [67.18010640829682]
我々は,AI生成画像がテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことを示す。検索モデルのトレーニングデータにAI生成画像を含めると、目に見えない関連性バイアスが増す。本研究では,目に見えない関連バイアスを軽減するための効果的なトレーニング手法を提案する。
論文参考訳（メタデータ） (2023-11-23T16:22:58Z)
Towards Pragmatic Semantic Image Synthesis for Urban Scenes [4.36080478413575]
合成画像とラベル付きデータセットとラベルなしの実画像付きデータセットが与えられた場合、入力マスクの内容と実際の画像の外観で画像を生成することができるモデルを学ぶことが目的である。合成画像は, パッチレベルでの高次特徴の違いをペナルティ化することにより, 生成画像の内容のガイドとして活用する。対象領域のセマンティックな分布に過度に適合する1つの識別器を用いた以前の研究とは対照的に、画像全体の識別器と画像パッチ上のマルチスケール識別器を用いる。
論文参考訳（メタデータ） (2023-05-16T18:01:12Z)
COFAR: Commonsense and Factual Reasoning in Image Search [2.6354148238224697]
現代の人工知能モデルよりも人間を優越させる特徴の1つは、視覚的に明らかなもの以上の画像を解釈できる能力である。我々は、画像内の名前付き視覚的エンティティを百科事典知識のゲートウェイとして扱う、知識検索拡張マルチモーダルトランス(KRAMT)という統合されたフレームワークを提案する。この統合されたフレームワークは、コモンセンスと事実推論を必要とする画像検索を実行するために使用される。
論文参考訳（メタデータ） (2022-10-16T14:43:13Z)
WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文参考訳（メタデータ） (2022-07-25T23:57:44Z)
A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文参考訳（メタデータ） (2021-12-09T18:59:21Z)
Iconary: A Pictionary-Based Game for Testing Multimodal Communication with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文参考訳（メタデータ） (2021-12-01T19:41:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。