論文の概要: Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions
- arxiv url: http://arxiv.org/abs/2405.19088v1
- Date: Wed, 29 May 2024 13:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:00:54.893223
- Title: Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions
- Title(参考訳): ジャクサポレーションの法則を破る - ヒューモラスな矛盾にAIモデルは耐えられるか?
- Authors: Zhe Hu, Tuo Liang, Jing Li, Yiren Lu, Yunlai Zhou, Yiran Qiao, Jing Ma, Yu Yin,
- Abstract要約: 本論では, ユーモラスな矛盾を生じさせる2つのパネルから構成される, 矛盾した物語を持つ漫画に焦点を当てる。
本稿では,これらの漫画の認識と解釈においてAIの能力を評価することを目的とした,さまざまな難易度タスクを含むYesButベンチマークを紹介する。
以上の結果から,現状のモデルでさえ,この課題における人的パフォーマンスに遅れをとどめていることが明らかとなった。
- 参考スコア(独自算出の注目度): 16.23585043442914
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in large multimodal language models have demonstrated remarkable proficiency across a wide range of tasks. Yet, these models still struggle with understanding the nuances of human humor through juxtaposition, particularly when it involves nonlinear narratives that underpin many jokes and humor cues. This paper investigates this challenge by focusing on comics with contradictory narratives, where each comic consists of two panels that create a humorous contradiction. We introduce the YesBut benchmark, which comprises tasks of varying difficulty aimed at assessing AI's capabilities in recognizing and interpreting these comics, ranging from literal content comprehension to deep narrative reasoning. Through extensive experimentation and analysis of recent commercial or open-sourced large (vision) language models, we assess their capability to comprehend the complex interplay of the narrative humor inherent in these comics. Our results show that even state-of-the-art models still lag behind human performance on this task. Our findings offer insights into the current limitations and potential improvements for AI in understanding human creative expressions.
- Abstract(参考訳): 大規模マルチモーダル言語モデルの最近の進歩は、幅広いタスクにおいて顕著な熟練性を示している。
しかし、これらのモデルは、特に多くのジョークやユーモアの手がかりとなる非線形な物語が絡む場合、人間のユーモアのニュアンスを理解することに苦慮している。
本稿では,この課題を,ユーモラスな矛盾を生み出す2つのパネルから構成される,矛盾した物語を持つ漫画に焦点をあてて検討する。
YesButベンチマークは、リテラルコンテンツ理解から深い物語推論まで、これらの漫画の認識と解釈におけるAIの能力を評価することを目的とした、さまざまな難易度の高いタスクを含む。
近年の商業的あるいはオープンソースな大規模(ビジョン)言語モデルの広範な実験と分析を通じて、これらのコミックに固有の物語的ユーモアの複雑な相互作用を理解する能力を評価する。
以上の結果から,現状のモデルでさえ,この課題における人的パフォーマンスに遅れをとどめていることが明らかとなった。
我々の発見は、人間の創造的表現を理解する上でのAIの現在の限界と潜在的な改善に関する洞察を提供する。
関連論文リスト
- Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [26.839159541015597]
空間的推論の様々な側面をカバーする新しいベンチマークを開発する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
我々は,空間知性を改善するためのマルチモーダルモデルの開発について報告する。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion [35.25298023240529]
本稿では,未注釈の漫画画像のみに基づいて文字を識別し,話者名を予測するためのゼロショット手法を提案する。
本手法ではトレーニングデータやアノテーションは必要とせず,任意のコミックシリーズで使用することができる。
論文 参考訳(メタデータ) (2024-04-22T08:59:35Z) - Exploring Chinese Humor Generation: A Study on Two-Part Allegorical Sayings [0.76146285961466]
本稿では,中国語のユーモアを理解・生成するための最先端言語モデルの有用性について検討する。
中規模言語モデルの微調整と大規模学習の促進という,2つの優れたトレーニング手法を採用している。
人間の注釈による結果は、これらのモデルがユーモラスな偏見を生み出す可能性を示し、証明が実用的で効果的な方法であることが証明された。
論文 参考訳(メタデータ) (2024-03-16T02:58:57Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest [70.40189243067857]
大きめのニューラルネットワークがジョークを生成できるようになったが、本当にユーモアを「理解」しているのだろうか?
私たちは、New Yorker Cartoon Caption Contestから派生した3つのタスクでAIモデルに挑戦します。
どちらのモデルも3つのタスクすべてで苦労しています。
論文 参考訳(メタデータ) (2022-09-13T20:54:00Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visualizing and Explaining Language Models [0.0]
自然言語処理はコンピュータビジョンの後、人工知能の第2の分野となった。
本稿では,NLPビジュアライゼーションにおいて最もポピュラーなDeep Learningの手法について紹介し,解釈可能性と説明可能性に着目した。
論文 参考訳(メタデータ) (2022-04-30T17:23:33Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。