Fugu-MT 論文翻訳(概要): Is AI fun? HumorDB: a curated dataset and benchmark to investigate graphical humor

論文の概要: Is AI fun? HumorDB: a curated dataset and benchmark to investigate graphical humor

arxiv url: http://arxiv.org/abs/2406.13564v1
Date: Wed, 19 Jun 2024 13:51:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 19:33:52.208205
Title: Is AI fun? HumorDB: a curated dataset and benchmark to investigate graphical humor
Title（参考訳）: AIは楽しいか?HumorDB:グラフィカルユーモアを調査するためのデータセットとベンチマーク
Authors: Veedant Jain, Felipe dos Santos Alves Feitosa, Gabriel Kreiman,
Abstract要約: HumorDBは、視覚的ユーモア理解を促進するために特別に設計された、イメージのみのデータセットである。このデータセットは、バイナリ分類、レンジ回帰、ペアワイズ比較タスクによる評価を可能にする。 HumorDBは、強力な大規模マルチモーダルモデルの貴重なベンチマークとしての可能性を示している。
参考スコア（独自算出の注目度）: 8.75275650545552
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Despite significant advancements in computer vision, understanding complex scenes, particularly those involving humor, remains a substantial challenge. This paper introduces HumorDB, a novel image-only dataset specifically designed to advance visual humor understanding. HumorDB consists of meticulously curated image pairs with contrasting humor ratings, emphasizing subtle visual cues that trigger humor and mitigating potential biases. The dataset enables evaluation through binary classification(Funny or Not Funny), range regression(funniness on a scale from 1 to 10), and pairwise comparison tasks(Which Image is Funnier?), effectively capturing the subjective nature of humor perception. Initial experiments reveal that while vision-only models struggle, vision-language models, particularly those leveraging large language models, show promising results. HumorDB also shows potential as a valuable zero-shot benchmark for powerful large multimodal models. We open-source both the dataset and code under the CC BY 4.0 license.
Abstract（参考訳）: コンピュータビジョンの大幅な進歩にもかかわらず、複雑なシーン、特にユーモアにかかわるシーンを理解することは大きな課題である。本稿では,視覚的ユーモア理解を促進するために設計された,画像のみのデータセットであるHumorDBを紹介する。 HumorDBは、厳密にキュレートされたイメージペアと、コントラストのあるユーモア評価で構成され、ユーモアを誘発する微妙な視覚的手がかりを強調し、潜在的なバイアスを緩和する。このデータセットは、二分分類(Funny or Not Funny)、範囲回帰(Funiness on a scale to 1 to 10)、対比較タスク(Which Image is Funnier?)による評価を可能にし、ユーモア知覚の主観的性質を効果的に捉える。最初の実験では、視覚のみのモデルでは苦労するが、視覚言語モデル、特に大きな言語モデルを利用するモデルは、有望な結果を示す。 HumorDBはまた、強力な大規模マルチモーダルモデルのための貴重なゼロショットベンチマークとしての可能性を示している。 CC BY 4.0ライセンスの下で、データセットとコードをオープンソースにしています。

関連論文リスト

HUMORCHAIN: Theory-Guided Multi-Stage Reasoning for Interpretable Multimodal Humor Generation [13.49193658655368]
噂は、創造的な人間の活動と社会的結びつきのメカニズムの両方として、AI生成において長年大きな課題を提起してきた。理論誘導型多段階推論フレームワークHUMORCHAINを提案する。視覚的意味解析、ユーモアと心理学に基づく推論、そしてユーモア評価のための微調整された識別器を統合している。
論文参考訳（メタデータ） (2025-11-21T09:52:46Z)
V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs [72.59885036868499]
v-HUBは視覚中心のビデオユーモア理解ベンチマークである。各ビデオクリップは、キャプション、説明、説明を含むリッチなアノテーションとペアリングされる。我々は,特殊なビデオLLMから音声処理が可能な汎用OmniLLMまで,MLLMの多様なセットを評価する。
論文参考訳（メタデータ） (2025-09-30T04:33:52Z)
From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy [6.124881326867511]
大きな言語モデルが広く採用されていることを踏まえ、ユーモアとAIの交わりは笑い事ではない。本研究では,スタンドアップコメディの書き起こしからユーモラスな引用を正確に識別するモデルの有効性を評価する。ユーモラスなパンチラインを抽出する能力について,様々なプロンプトの中からLLMを評価するために考案された新しいユーモラス検出指標を提案する。
論文参考訳（メタデータ） (2025-04-12T02:19:53Z)
Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content [0.0]
Deceptive Humor データセット (DHD) は、偽造されたクレームと誤情報から派生したユーモアを研究するための新しいリソースである。 DHDは、偽の物語から生成されたユーモアを注入したコメントで構成され、偽造されたクレームと操作された情報を取り入れている。データセットは、英語、Telugu、Hindi、Kannada、Tamil、およびそれらのコード混合変種(Te-En、Hi-En、Ka-En、Ta-En)を含む複数の言語にまたがる。
論文参考訳（メタデータ） (2025-03-20T10:58:02Z)
When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文参考訳（メタデータ） (2024-07-04T18:13:38Z)
Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions [16.23585043442914]
本論では, ユーモラスな矛盾を生じさせる2つのパネルから構成される, 矛盾した物語を持つ漫画に焦点を当てる。本稿では,これらの漫画の認識と解釈においてAIの能力を評価することを目的とした,さまざまな難易度タスクを含むYesButベンチマークを紹介する。以上の結果から,現状のモデルでさえ,この課題における人的パフォーマンスに遅れをとどめていることが明らかとなった。
論文参考訳（メタデータ） (2024-05-29T13:51:43Z)
Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文参考訳（メタデータ） (2024-02-23T02:58:12Z)
Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文参考訳（メタデータ） (2023-12-05T20:07:34Z)
StyleEDL: Style-Guided High-order Attention Network for Image Emotion Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。 StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文参考訳（メタデータ） (2023-08-06T03:22:46Z)
OxfordTVG-HIC: Can Machine Make Humorous Captions from Images? [27.899718595182172]
ユーモア生成と理解のための大規模データセットであるOxfordTVG-HIC(Humorous Image Captions)を提案する。 OxfordTVG-HICは幅広い感情的・意味的な多様性を特徴とし、アウト・オブ・コンテクストの例である。我々は、生成されたテキストのユーモアを評価するために、OxfordTVG-HICをどのように活用できるかを示す。
論文参考訳（メタデータ） (2023-07-21T14:58:44Z)
Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文参考訳（メタデータ） (2023-06-02T19:19:43Z)
Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文参考訳（メタデータ） (2023-05-23T08:28:38Z)
ExPUNations: Augmenting Puns with Keywords and Explanations [88.58174386894913]
我々は、キーワードの詳細なクラウドソースアノテーションで既存の句のデータセットを拡張する。これは、パント専用の広範囲できめ細かなアノテーションを備えた最初のユーモアデータセットである。句分類支援のための説明生成とキーワード条件付き句生成という2つのタスクを提案する。
論文参考訳（メタデータ） (2022-10-24T18:12:02Z)
Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文参考訳（メタデータ） (2022-09-28T17:36:47Z)
Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest [70.40189243067857]
大きめのニューラルネットワークがジョークを生成できるようになったが、本当にユーモアを「理解」しているのだろうか? 私たちは、New Yorker Cartoon Caption Contestから派生した3つのタスクでAIモデルに挑戦します。どちらのモデルも3つのタスクすべてで苦労しています。
論文参考訳（メタデータ） (2022-09-13T20:54:00Z)
Biasing Like Human: A Cognitive Bias Framework for Scene Graph Generation [20.435023745201878]
本稿では,視覚に基づく表現のガイダンスとして,人間がラベル言語の特徴をどのように取り入れるかをシミュレートする,新しい3パラダイムフレームワークを提案する。私たちのフレームワークはどんなシーングラフモデルにも依存しません。
論文参考訳（メタデータ） (2022-03-17T08:29:52Z)
M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。 M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文参考訳（メタデータ） (2021-08-03T02:54:09Z)
Laughing Heads: Can Transformers Detect What Makes a Sentence Funny? [18.67834526946997]
我々は、最小組の文からなるデータセット上で、トランスフォーマーに基づくユーモア認識モデルを訓練し、分析する。一致したデータセットは以前のデータセットよりもはるかに難しいが、トランスフォーマーベースのモデルは、高精度(78%)の一致したペアでユーモラスな文を認識する。最も顕著なことは、訓練時にこの情報にアクセスしなくても、一つの注意頭がテスト文をユーモラスにする単語を認識することを学ぶという明確な証拠を見つけることである。
論文参考訳（メタデータ） (2021-05-19T14:02:25Z)
Humor@IITK at SemEval-2021 Task 7: Large Language Models for Quantifying Humor and Offensiveness [2.251416625953577]
本稿では,大きなニューラルモデルとそのアンサンブルがユーモア/オフィス検出と評価に関連する複雑さを捕捉できるかどうかを検討する。 SemEval-2021 Task 7: HaHackathonによる実験により,このようなモデルを用いて合理的なユーモアと犯罪検知システムを開発できることが判明した。
論文参考訳（メタデータ） (2021-04-02T08:22:02Z)
Federated Learning with Diversified Preference for Humor Recognition [40.89453484353102]
We propose the FedHumor approach to recognize humorous text contents in a Personal manner through federated learning (FL)。様々なユーモア嗜好を持つ人々に対して、FedHumorのユーモア内容の正確な認識において、9つの最先端ユーモア認識アプローチと比較して、実験は大きな利点を示す。
論文参考訳（メタデータ） (2020-12-03T03:24:24Z)
Advancing Humor-Focused Sentiment Analysis through Improved Contextualized Embeddings and Model Architecture [0.0]
噂によって、私たちは都合よく、効果的に思考や感情を表現することができます。言語モデルが仮想アシスタントやIOTデバイスを介してユビキタス化するにつれ、ユーモアを意識したモデルを開発する必要性が指数関数的に高まっていく。
論文参考訳（メタデータ） (2020-11-23T22:30:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。