論文の概要: Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest
- arxiv url: http://arxiv.org/abs/2209.06293v1
- Date: Tue, 13 Sep 2022 20:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 12:52:32.931219
- Title: Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest
- Title(参考訳): アンドロイドは電気羊を笑うのか?
new yorkerのキャプションコンテストにおけるユーモアの「理解」ベンチマーク
- Authors: Jack Hessel and Ana Marasovi\'c and Jena D. Hwang and Lillian Lee and
Jeff Da and Rowan Zellers and Robert Mankoff and Yejin Choi
- Abstract要約: 私たちは、The New Yorker Caption Contestの洗練されたマルチモーダルユーモアの"理解を実証する"ために、AIモデルに挑戦します。
漫画のピクセルやキャプションを直接入力する視覚・言語モデルと、画像処理を回避する言語のみのモデルについて検討する。
漫画画像にはリッチな多面的アノテーションが提供されているが、高品質な機械学習モデルと人間のパフォーマンスギャップを識別する。
- 参考スコア(独自算出の注目度): 70.40189243067857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We challenge AI models to "demonstrate understanding" of the sophisticated
multimodal humor of The New Yorker Caption Contest. Concretely, we develop
three carefully circumscribed tasks for which it suffices (but is not
necessary) to grasp potentially complex and unexpected relationships between
image and caption, and similarly complex and unexpected allusions to the wide
varieties of human experience; these are the hallmarks of a New Yorker-caliber
cartoon.
We investigate vision-and-language models that take as input the cartoon
pixels and caption directly, as well as language-only models for which we
circumvent image-processing by providing textual descriptions of the image.
Even with the rich multifaceted annotations we provide for the cartoon images,
we identify performance gaps between high-quality machine learning models
(e.g., a fine-tuned, 175B parameter language model) and humans. We publicly
release our corpora including annotations describing the image's
locations/entities, what's unusual about the scene, and an explanation of the
joke.
- Abstract(参考訳): 我々は、ニューヨーカーキャプションコンテストの洗練されたマルチモーダルユーモアを「理解する」ためにaiモデルに挑戦する。
具体的には、画像とキャプションの間の潜在的に複雑で予期せぬ関係を把握できる(必要ではない)3つの注意深く取り組んだタスクを開発し、同様に様々な人間体験への複雑で予期せぬ暗示を展開する。
漫画のピクセルやキャプションを直接入力する視覚・言語モデルや、画像のテキスト記述を提供することで画像処理を回避する言語のみのモデルについて検討する。
漫画画像に提供されるリッチな多面的アノテーションを用いても、高品質な機械学習モデル(例えば、微調整された175Bパラメータ言語モデル)と人間のパフォーマンスギャップを識別する。
画像の場所や性格、シーンの異常な点、ジョークの説明などに関する注釈を含むコーパスを公開しています。
関連論文リスト
- Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! [14.84123301554462]
語彙的曖昧さの解消におけるマルチモーダル入力の影響を評価するための新しいベンチマークUNPIEを提案する。
私たちのデータセットには1,000個の句が含まれており、それぞれに両方の意味を説明する画像が添付されています。
その結果,様々なソクラティック・モデルとビジュアル・ランゲージ・モデルにより,視覚的コンテキストが与えられた場合に,テキストのみのモデルよりも改善されることが示された。
論文 参考訳(メタデータ) (2024-10-01T19:32:57Z) - PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文 参考訳(メタデータ) (2024-09-10T14:09:39Z) - Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions [16.23585043442914]
本論では, ユーモラスな矛盾を生じさせる2つのパネルから構成される, 矛盾した物語を持つ漫画に焦点を当てる。
本稿では,これらの漫画の認識と解釈においてAIの能力を評価することを目的とした,さまざまな難易度タスクを含むYesButベンチマークを紹介する。
以上の結果から,現状のモデルでさえ,この課題における人的パフォーマンスに遅れをとどめていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-29T13:51:43Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。
図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文 参考訳(メタデータ) (2021-12-01T19:41:03Z) - Goal-driven text descriptions for images [7.059848512713061]
この論文は視覚入力のテキスト出力を生成することに焦点を当てている。
我々は、より識別しやすいように生成した参照表現を誘導するために、理解機械を使用する。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
論文 参考訳(メタデータ) (2021-08-28T05:10:38Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。