論文の概要: Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest
- arxiv url: http://arxiv.org/abs/2209.06293v1
- Date: Tue, 13 Sep 2022 20:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 12:52:32.931219
- Title: Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest
- Title(参考訳): アンドロイドは電気羊を笑うのか?
new yorkerのキャプションコンテストにおけるユーモアの「理解」ベンチマーク
- Authors: Jack Hessel and Ana Marasovi\'c and Jena D. Hwang and Lillian Lee and
Jeff Da and Rowan Zellers and Robert Mankoff and Yejin Choi
- Abstract要約: 私たちは、The New Yorker Caption Contestの洗練されたマルチモーダルユーモアの"理解を実証する"ために、AIモデルに挑戦します。
漫画のピクセルやキャプションを直接入力する視覚・言語モデルと、画像処理を回避する言語のみのモデルについて検討する。
漫画画像にはリッチな多面的アノテーションが提供されているが、高品質な機械学習モデルと人間のパフォーマンスギャップを識別する。
- 参考スコア(独自算出の注目度): 70.40189243067857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We challenge AI models to "demonstrate understanding" of the sophisticated
multimodal humor of The New Yorker Caption Contest. Concretely, we develop
three carefully circumscribed tasks for which it suffices (but is not
necessary) to grasp potentially complex and unexpected relationships between
image and caption, and similarly complex and unexpected allusions to the wide
varieties of human experience; these are the hallmarks of a New Yorker-caliber
cartoon.
We investigate vision-and-language models that take as input the cartoon
pixels and caption directly, as well as language-only models for which we
circumvent image-processing by providing textual descriptions of the image.
Even with the rich multifaceted annotations we provide for the cartoon images,
we identify performance gaps between high-quality machine learning models
(e.g., a fine-tuned, 175B parameter language model) and humans. We publicly
release our corpora including annotations describing the image's
locations/entities, what's unusual about the scene, and an explanation of the
joke.
- Abstract(参考訳): 我々は、ニューヨーカーキャプションコンテストの洗練されたマルチモーダルユーモアを「理解する」ためにaiモデルに挑戦する。
具体的には、画像とキャプションの間の潜在的に複雑で予期せぬ関係を把握できる(必要ではない)3つの注意深く取り組んだタスクを開発し、同様に様々な人間体験への複雑で予期せぬ暗示を展開する。
漫画のピクセルやキャプションを直接入力する視覚・言語モデルや、画像のテキスト記述を提供することで画像処理を回避する言語のみのモデルについて検討する。
漫画画像に提供されるリッチな多面的アノテーションを用いても、高品質な機械学習モデル(例えば、微調整された175Bパラメータ言語モデル)と人間のパフォーマンスギャップを識別する。
画像の場所や性格、シーンの異常な点、ジョークの説明などに関する注釈を含むコーパスを公開しています。
関連論文リスト
- Comics for Everyone: Generating Accessible Text Descriptions for Comic
Strips [0.0]
我々は、視覚障害者のコミュニティにアクセス可能なコミックストリップの自然言語記述を作成します。
まず、コンピュータビジョン技術を用いて、コミック画像のパネル、文字、テキストに関する情報を抽出する。
我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を計測する。
論文 参考訳(メタデータ) (2023-10-01T15:13:48Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - Linearly Mapping from Image to Text Space [22.290431852705662]
テキストのみのモデルで学習した概念表現は、視覚タスクで学習したモデルと機能的に等価であることを示す。
3つの画像エンコーダと事前訓練中に見られる言語指導量の増大を比較した。
3つのエンコーダはいずれも、視覚特性情報を言語モデルに転送する際にも等しく機能することがわかった。
論文 参考訳(メタデータ) (2022-09-30T01:17:18Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。
図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文 参考訳(メタデータ) (2021-12-01T19:41:03Z) - Goal-driven text descriptions for images [7.059848512713061]
この論文は視覚入力のテキスト出力を生成することに焦点を当てている。
我々は、より識別しやすいように生成した参照表現を誘導するために、理解機械を使用する。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
論文 参考訳(メタデータ) (2021-08-28T05:10:38Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。