論文の概要: HumorRank: A Tournament-Based Leaderboard for Evaluating Humor Generation in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.19786v1
- Date: Tue, 31 Mar 2026 18:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.078001
- Title: HumorRank: A Tournament-Based Leaderboard for Evaluating Humor Generation in Large Language Models
- Title(参考訳): HumorRank: 大規模言語モデルにおけるHummor生成評価のためのトーナメントベースのリーダーボード
- Authors: Edward Ajayi, Prasenjit Mitra,
- Abstract要約: 本稿では,テキストユーモア生成のためのトーナメントベースの評価フレームワークであるHumorRankを紹介する。
SemEval-2026 MWAHAHAテストデータセットを使用して、プロプライエタリ、オープンウェイト、特殊システムにまたがる9つのモデルに対して、自動ペアワイズ評価を行う。
以上の結果から,HumorRankは,モデルスケールのみではなく,喜劇的なメカニズムの熟達によって,ユーモアの質が促進されることが示唆された。
- 参考スコア(独自算出の注目度): 13.570863502498336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating humor in large language models (LLMs) is an open challenge because existing approaches yield isolated, incomparable metrics rather than unified model rankings, making it difficult to track progress across systems. We introduce HumorRank, a tournament-based evaluation framework and leaderboard for textual humor generation. Using SemEval-2026 MWAHAHA test dataset, we conduct an extensive automated pairwise evaluation across nine models spanning proprietary, open-weight, and specialized systems. Pairwise judgments grounded in the General Theory of Verbal Humor (GTVH) are aggregated via an Adaptive Swiss tournament, with Bradley-Terry Maximum Likelihood Estimation (MLE) producing globally consistent humor generation capability rankings. Our results demonstrate that HumorRank yields statistically grounded model stratifications, showing that humor quality is driven by mastery of comedic mechanisms rather than model scale alone. HumorRank thus provides a scalable, interpretable methodology for benchmarking and understanding LLM-generated humor.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるユーモアの評価は、既存のアプローチが統一されたモデルランキングではなく、分離された非互換性なメトリクスを生成するため、システム間の進捗を追跡できないため、オープンな課題である。
本稿では,テキストユーモア生成のためのトーナメントベースの評価フレームワークであるHumorRankを紹介する。
SemEval-2026 MWAHAHAテストデータセットを使用して、プロプライエタリ、オープンウェイト、特殊システムにまたがる9つのモデルに対して、広範な自動ペアワイズ評価を行う。
GTVH(General Theory of Verbal Humor)は、スイスのアダプティブトーナメントで、Bradley-Terry Maximum Likelihood Estimation (MLE)が一貫したユーモア生成能力のランキングを生成する。
以上の結果から,HumorRankは,モデルスケールのみではなく,喜劇的なメカニズムの熟達によって,ユーモアの質が促進されることが示唆された。
HumorRankは、LLM生成ユーモアのベンチマークと理解のためのスケーラブルで解釈可能な方法論を提供する。
関連論文リスト
- HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation [13.570863502498336]
本稿では,高品質なユーモアデータを生成する手法であるCognitive Synergy Frameworkを紹介する。
我々は6つの認知的ペルソナを配置し、与えられたプロンプトのために多様な喜劇的視点を合成する。
認知駆動型データは、ユーモア生成のためのアライメントアルゴリズムやモデルスケールよりもはるかに重要である。
論文 参考訳(メタデータ) (2026-03-19T13:12:53Z) - Engagement Undermines Safety: How Stereotypes and Toxicity Shape Humor in Language Models [55.98686105081078]
大規模言語モデルは、クリエイティブな執筆やエンゲージメントコンテンツにますます使われ、アウトプットに対する安全性の懸念が高まっている。
本研究は, 現代のLLMパイプラインにおいて, ユーモア, 立体特異性, 毒性を測定することによって, 有害な内容とどのように結合するかを評価する。
論文 参考訳(メタデータ) (2025-10-21T09:28:09Z) - V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs [72.59885036868499]
v-HUBは視覚中心のビデオユーモア理解ベンチマークである。
各ビデオクリップは、キャプション、説明、説明を含むリッチなアノテーションとペアリングされる。
我々は,特殊なビデオLLMから音声処理が可能な汎用OmniLLMまで,MLLMの多様なセットを評価する。
論文 参考訳(メタデータ) (2025-09-30T04:33:52Z) - Which LLMs Get the Joke? Probing Non-STEM Reasoning Abilities with HumorBench [16.929265302194782]
HumorBenchは、漫画のキャプションで洗練されたユーモアを推論し説明するための、大きな言語モデル(LLM)の能力を評価するために設計されたベンチマークである。
LLMは、ジョーク要素を特定する際のユーモアと能力に関する説明に基づいて評価される。
論文 参考訳(メタデータ) (2025-07-29T03:44:43Z) - From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy [6.124881326867511]
大きな言語モデルが広く採用されていることを踏まえ、ユーモアとAIの交わりは笑い事ではない。
本研究では,スタンドアップコメディの書き起こしからユーモラスな引用を正確に識別するモデルの有効性を評価する。
ユーモラスなパンチラインを抽出する能力について,様々なプロンプトの中からLLMを評価するために考案された新しいユーモラス検出指標を提案する。
論文 参考訳(メタデータ) (2025-04-12T02:19:53Z) - Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。