論文の概要: When 'YES' Meets 'BUT': Can Large Models Comprehend Contradictory Humor Through Comparative Reasoning?
- arxiv url: http://arxiv.org/abs/2503.23137v1
- Date: Sat, 29 Mar 2025 16:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:55.160614
- Title: When 'YES' Meets 'BUT': Can Large Models Comprehend Contradictory Humor Through Comparative Reasoning?
- Title(参考訳): YES」が「BUT」と出会う時:大規模モデルは比較推論を通して反トラクタリー・ウォーモアを補うことができるか?
- Authors: Tuo Liang, Zhe Hu, Jing Li, Hao Zhang, Yiren Lu, Yunlai Zhou, Yiran Qiao, Disheng Liu, Jeirui Peng, Jing Ma, Yu Yin,
- Abstract要約: 多様な多言語・多文化の文脈から1,262の漫画画像を用いた新しいベンチマークを導入する。
4つの相補的なタスクを通して、幅広い視覚言語モデルを体系的に評価する。
我々の実験では、最も先進的なモデルでさえ、人間に比べて著しく性能が劣っていることが判明した。
- 参考スコア(独自算出の注目度): 17.647896474008597
- License:
- Abstract: Understanding humor-particularly when it involves complex, contradictory narratives that require comparative reasoning-remains a significant challenge for large vision-language models (VLMs). This limitation hinders AI's ability to engage in human-like reasoning and cultural expression. In this paper, we investigate this challenge through an in-depth analysis of comics that juxtapose panels to create humor through contradictions. We introduce the YesBut (V2), a novel benchmark with 1,262 comic images from diverse multilingual and multicultural contexts, featuring comprehensive annotations that capture various aspects of narrative understanding. Using this benchmark, we systematically evaluate a wide range of VLMs through four complementary tasks spanning from surface content comprehension to deep narrative reasoning, with particular emphasis on comparative reasoning between contradictory elements. Our extensive experiments reveal that even the most advanced models significantly underperform compared to humans, with common failures in visual perception, key element identification, comparative analysis and hallucinations. We further investigate text-based training strategies and social knowledge augmentation methods to enhance model performance. Our findings not only highlight critical weaknesses in VLMs' understanding of cultural and creative expressions but also provide pathways toward developing context-aware models capable of deeper narrative understanding though comparative reasoning.
- Abstract(参考訳): 特にユーモアを理解するには、比較推論を必要とする複雑な矛盾した物語が伴うが、これは大きな視覚言語モデル(VLM)にとって重要な課題である。
この制限は、AIが人間のような推論や文化的な表現を行う能力を妨げている。
本稿では,この課題を,コンフリクションを通じてユーモアを生み出すためにパネルを並置する漫画の詳細な分析を通じて検討する。
本稿では,多言語・多文化の多様な文脈から1,262の漫画イメージを抽出した新しいベンチマークであるYesBut (V2)を紹介し,物語理解の様々な側面を包括的に捉えたアノテーションを特徴とする。
本ベンチマークを用いて,表層コンテンツ理解から深い物語推論までの4つの相補的タスクを通じて,VLMを体系的に評価し,特に矛盾要素間の比較推論に着目した。
我々の広範な実験により、最も先進的なモデルでさえ、視覚的知覚、鍵要素の識別、比較分析、幻覚に共通する失敗を伴って、人間に比べて著しく性能が劣っていることが判明した。
さらに、モデル性能を高めるためのテキストベースのトレーニング戦略と社会知識向上手法について検討する。
我々の発見は、VLMが文化的・創造的な表現を理解する上で重要な弱点を浮き彫りにするだけでなく、比較推論をしながらより深い物語理解が可能な文脈認識モデルを開発するための道筋も示している。
関連論文リスト
- Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Unveiling Visual Perception in Language Models: An Attention Head Analysis Approach [33.20992355312175]
MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的理解の著しい進歩を示している。
本稿では,4つのモデルファミリーと4つのモデルスケールにまたがる系統的な調査により,この問題に対処することを目的とする。
分析の結果,これらの注意ヘッドの挙動,注意重みの分布,および入力中の視覚的トークンへの集中との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2024-12-24T02:31:24Z) - Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。
人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。
私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T11:18:41Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images [19.923665989164387]
我々は,Multimodal Causal Reasoningベンチマーク,すなわち MuCR を提案し,大規模言語モデルに挑戦する。
具体的には,セマンティック因果関係と視覚的手がかりを組み込んだシアム画像を作成するための,プロンプト駆動画像合成手法を提案する。
我々の広範な実験により、現在最先端のVLLMは、我々が期待したようなマルチモーダル因果推論に熟練していないことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions [16.23585043442914]
本論では, ユーモラスな矛盾を生じさせる2つのパネルから構成される, 矛盾した物語を持つ漫画に焦点を当てる。
本稿では,これらの漫画の認識と解釈においてAIの能力を評価することを目的とした,さまざまな難易度タスクを含むYesButベンチマークを紹介する。
以上の結果から,現状のモデルでさえ,この課題における人的パフォーマンスに遅れをとどめていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-29T13:51:43Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。