論文の概要: Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest
- arxiv url: http://arxiv.org/abs/2209.06293v2
- Date: Thu, 6 Jul 2023 06:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 18:29:14.720890
- Title: Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest
- Title(参考訳): アンドロイドは電気羊を笑うのか?
new yorkerのキャプションコンテストにおけるユーモアの「理解」ベンチマーク
- Authors: Jack Hessel and Ana Marasovi\'c and Jena D. Hwang and Lillian Lee and
Jeff Da and Rowan Zellers and Robert Mankoff and Yejin Choi
- Abstract要約: 大きめのニューラルネットワークがジョークを生成できるようになったが、本当にユーモアを「理解」しているのだろうか?
私たちは、New Yorker Cartoon Caption Contestから派生した3つのタスクでAIモデルに挑戦します。
どちらのモデルも3つのタスクすべてで苦労しています。
- 参考スコア(独自算出の注目度): 70.40189243067857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large neural networks can now generate jokes, but do they really "understand"
humor? We challenge AI models with three tasks derived from the New Yorker
Cartoon Caption Contest: matching a joke to a cartoon, identifying a winning
caption, and explaining why a winning caption is funny. These tasks encapsulate
progressively more sophisticated aspects of "understanding" a cartoon; key
elements are the complex, often surprising relationships between images and
captions and the frequent inclusion of indirect and playful allusions to human
experience and culture. We investigate both multimodal and language-only
models: the former are challenged with the cartoon images directly, while the
latter are given multifaceted descriptions of the visual scene to simulate
human-level visual understanding. We find that both types of models struggle at
all three tasks. For example, our best multimodal models fall 30 accuracy
points behind human performance on the matching task, and, even when provided
ground-truth visual scene descriptors, human-authored explanations are
preferred head-to-head over the best machine-authored ones (few-shot GPT-4) in
more than 2/3 of cases. We release models, code, leaderboard, and corpus, which
includes newly-gathered annotations describing the image's locations/entities,
what's unusual in the scene, and an explanation of the joke.
- Abstract(参考訳): 大規模なニューラルネットワークがジョークを生成できるようになったが、ユーモアを“理解”できるのだろうか?
我々は、New Yorker Cartoon Caption Contestから派生した3つのタスクでAIモデルに挑戦する: ジョークと漫画をマッチングし、勝利したキャプションを特定し、勝利したキャプションが面白い理由を説明する。
重要な要素は、画像とキャプションの間の複雑な、しばしば驚くべき関係と、間接的で遊びに満ちた説明が人間の経験や文化に頻繁に含まれることである。
我々は,マルチモーダルモデルと言語のみのモデルの両方について検討する。前者は漫画イメージに直接挑戦し,後者は人間レベルの視覚的理解をシミュレートするために視覚シーンの多面的記述を与える。
どちらのモデルも3つのタスクすべてで苦労しています。
例えば、当社のベストマルチモーダルモデルは、マッチングタスクにおいて人間のパフォーマンスよりも30ポイント遅れており、たとえ地上の視覚シーン記述子が提供されたとしても、人間による説明は、2/3以上のケースで最高の機械によって認可されたモデル(gpt-4)よりも優先されます。
モデル、コード、リーダボード、コーパスをリリースし、画像の位置や関係、シーンで珍しいもの、ジョークの説明を新たに収集したアノテーションが含まれています。
関連論文リスト
- Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! [14.84123301554462]
語彙的曖昧さの解消におけるマルチモーダル入力の影響を評価するための新しいベンチマークUNPIEを提案する。
私たちのデータセットには1,000個の句が含まれており、それぞれに両方の意味を説明する画像が添付されています。
その結果,様々なソクラティック・モデルとビジュアル・ランゲージ・モデルにより,視覚的コンテキストが与えられた場合に,テキストのみのモデルよりも改善されることが示された。
論文 参考訳(メタデータ) (2024-10-01T19:32:57Z) - PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文 参考訳(メタデータ) (2024-09-10T14:09:39Z) - Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions [16.23585043442914]
本論では, ユーモラスな矛盾を生じさせる2つのパネルから構成される, 矛盾した物語を持つ漫画に焦点を当てる。
本稿では,これらの漫画の認識と解釈においてAIの能力を評価することを目的とした,さまざまな難易度タスクを含むYesButベンチマークを紹介する。
以上の結果から,現状のモデルでさえ,この課題における人的パフォーマンスに遅れをとどめていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-29T13:51:43Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。
図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文 参考訳(メタデータ) (2021-12-01T19:41:03Z) - Goal-driven text descriptions for images [7.059848512713061]
この論文は視覚入力のテキスト出力を生成することに焦点を当てている。
我々は、より識別しやすいように生成した参照表現を誘導するために、理解機械を使用する。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
論文 参考訳(メタデータ) (2021-08-28T05:10:38Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。