論文の概要: Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest
- arxiv url: http://arxiv.org/abs/2209.06293v2
- Date: Thu, 6 Jul 2023 06:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 18:29:14.720890
- Title: Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest
- Title(参考訳): アンドロイドは電気羊を笑うのか?
new yorkerのキャプションコンテストにおけるユーモアの「理解」ベンチマーク
- Authors: Jack Hessel and Ana Marasovi\'c and Jena D. Hwang and Lillian Lee and
Jeff Da and Rowan Zellers and Robert Mankoff and Yejin Choi
- Abstract要約: 大きめのニューラルネットワークがジョークを生成できるようになったが、本当にユーモアを「理解」しているのだろうか?
私たちは、New Yorker Cartoon Caption Contestから派生した3つのタスクでAIモデルに挑戦します。
どちらのモデルも3つのタスクすべてで苦労しています。
- 参考スコア(独自算出の注目度): 70.40189243067857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large neural networks can now generate jokes, but do they really "understand"
humor? We challenge AI models with three tasks derived from the New Yorker
Cartoon Caption Contest: matching a joke to a cartoon, identifying a winning
caption, and explaining why a winning caption is funny. These tasks encapsulate
progressively more sophisticated aspects of "understanding" a cartoon; key
elements are the complex, often surprising relationships between images and
captions and the frequent inclusion of indirect and playful allusions to human
experience and culture. We investigate both multimodal and language-only
models: the former are challenged with the cartoon images directly, while the
latter are given multifaceted descriptions of the visual scene to simulate
human-level visual understanding. We find that both types of models struggle at
all three tasks. For example, our best multimodal models fall 30 accuracy
points behind human performance on the matching task, and, even when provided
ground-truth visual scene descriptors, human-authored explanations are
preferred head-to-head over the best machine-authored ones (few-shot GPT-4) in
more than 2/3 of cases. We release models, code, leaderboard, and corpus, which
includes newly-gathered annotations describing the image's locations/entities,
what's unusual in the scene, and an explanation of the joke.
- Abstract(参考訳): 大規模なニューラルネットワークがジョークを生成できるようになったが、ユーモアを“理解”できるのだろうか?
我々は、New Yorker Cartoon Caption Contestから派生した3つのタスクでAIモデルに挑戦する: ジョークと漫画をマッチングし、勝利したキャプションを特定し、勝利したキャプションが面白い理由を説明する。
重要な要素は、画像とキャプションの間の複雑な、しばしば驚くべき関係と、間接的で遊びに満ちた説明が人間の経験や文化に頻繁に含まれることである。
我々は,マルチモーダルモデルと言語のみのモデルの両方について検討する。前者は漫画イメージに直接挑戦し,後者は人間レベルの視覚的理解をシミュレートするために視覚シーンの多面的記述を与える。
どちらのモデルも3つのタスクすべてで苦労しています。
例えば、当社のベストマルチモーダルモデルは、マッチングタスクにおいて人間のパフォーマンスよりも30ポイント遅れており、たとえ地上の視覚シーン記述子が提供されたとしても、人間による説明は、2/3以上のケースで最高の機械によって認可されたモデル(gpt-4)よりも優先されます。
モデル、コード、リーダボード、コーパスをリリースし、画像の位置や関係、シーンで珍しいもの、ジョークの説明を新たに収集したアノテーションが含まれています。
関連論文リスト
- Comics for Everyone: Generating Accessible Text Descriptions for Comic
Strips [0.0]
我々は、視覚障害者のコミュニティにアクセス可能なコミックストリップの自然言語記述を作成します。
まず、コンピュータビジョン技術を用いて、コミック画像のパネル、文字、テキストに関する情報を抽出する。
我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を計測する。
論文 参考訳(メタデータ) (2023-10-01T15:13:48Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - Linearly Mapping from Image to Text Space [22.290431852705662]
テキストのみのモデルで学習した概念表現は、視覚タスクで学習したモデルと機能的に等価であることを示す。
3つの画像エンコーダと事前訓練中に見られる言語指導量の増大を比較した。
3つのエンコーダはいずれも、視覚特性情報を言語モデルに転送する際にも等しく機能することがわかった。
論文 参考訳(メタデータ) (2022-09-30T01:17:18Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。
図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文 参考訳(メタデータ) (2021-12-01T19:41:03Z) - Goal-driven text descriptions for images [7.059848512713061]
この論文は視覚入力のテキスト出力を生成することに焦点を当てている。
我々は、より識別しやすいように生成した参照表現を誘導するために、理解機械を使用する。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
論文 参考訳(メタデータ) (2021-08-28T05:10:38Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。