論文の概要: Oogiri-Master: Benchmarking Humor Understanding via Oogiri
- arxiv url: http://arxiv.org/abs/2512.21494v1
- Date: Thu, 25 Dec 2025 03:59:20 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:41.976959
- Title: Oogiri-Master: Benchmarking Humor Understanding via Oogiri
- Title(参考訳): Oogiri-Master: OogiriによるHumor理解のベンチマーク
- Authors: Soichiro Murakami, Hidetaka Kamigaito, Hiroya Takamura, Manabu Okumura,
- Abstract要約: 参加者が与えられたプロンプトに対して機知に富む応答を生成できる,日本の創造的反応ゲーム「おぎり」を用いてユーモアを学習する。
既存のデータセットには、プロンプト毎の候補応答がほとんどなく、評価中に人気信号が露出し、客観性と同等の指標が欠如している。
Oogiri-Master と Oogiri-Corpus は,大規模言語モデルにおけるユーモア理解の厳密な評価を可能にするためのベンチマークとデータセットである。
- 参考スコア(独自算出の注目度): 53.060893644603844
- License:
- Abstract: Humor is a salient testbed for human-like creative thinking in large language models (LLMs). We study humor using the Japanese creative response game Oogiri, in which participants produce witty responses to a given prompt, and ask the following research question: What makes such responses funny to humans? Previous work has offered only limited reliable means to answer this question. Existing datasets contain few candidate responses per prompt, expose popularity signals during ratings, and lack objective and comparable metrics for funniness. Thus, we introduce Oogiri-Master and Oogiri-Corpus, which are a benchmark and dataset designed to enable rigorous evaluation of humor understanding in LLMs. Each prompt is paired with approximately 100 diverse candidate responses, and funniness is rated independently by approximately 100 human judges without access to others' ratings, reducing popularity bias and enabling robust aggregation. Using Oogiri-Corpus, we conduct a quantitative analysis of the linguistic factors associated with funniness, such as text length, ambiguity, and incongruity resolution, and derive objective metrics for predicting human judgments. Subsequently, we benchmark a range of LLMs and human baselines in Oogiri-Master, demonstrating that state-of-the-art models approach human performance and that insight-augmented prompting improves the model performance. Our results provide a principled basis for evaluating and advancing humor understanding in LLMs.
- Abstract(参考訳): Humorは、大きな言語モデル(LLMs)における人間のような創造的思考のための健全なテストベッドである。
参加者が与えられたプロンプトに対して機敏に反応する日本の創造的反応ゲーム「おぎり」を用いてユーモアを学習し、以下の研究課題を問う。
これまでの作業では、この問題に答える信頼できる手段は限られていた。
既存のデータセットには、プロンプト毎の候補応答がほとんどなく、評価中に人気信号が露出し、客観性と同等の指標が欠如している。
そこで我々は,LLMにおけるユーモア理解の厳密な評価を可能にするためのベンチマークとデータセットであるOogiri-MasterとOogiri-Corpusを紹介する。
それぞれのプロンプトは、およそ100の多様な候補の応答とペアリングされ、楽しさは、他の人のレーティングにアクセスせず、人気バイアスを減らし、堅牢なアグリゲーションを可能にする約100人の人間裁判官によって独立に評価される。
我々は,Oogiri-Corpusを用いて,文章の長さ,あいまいさ,違和感の解消など,面白さに関連する言語的要因を定量的に分析し,人間の判断を予測する客観的な指標を導出する。
続いて,Oogiri-Master の LLM と人間ベースラインをベンチマークし,最先端のモデルが人間のパフォーマンスに近づき,洞察を増強することでモデル性能が向上することを示した。
本研究は,LLMにおけるユーモア理解の評価と向上のための基本的基盤を提供する。
関連論文リスト
- Assessing the Capabilities of LLMs in Humor:A Multi-dimensional Analysis of Oogiri Generation and Evaluation [11.402855509329711]
計算のユーモアは、高度で魅力的な自然言語処理(NLP)アプリケーションを作成するためのフロンティアである。
これまでの研究は、Large Language Models (LLMs) のユーモア能力をベンチマークしてきた。
本稿では,多面的なユーモア理解の必要性を論じ,オオギリのレンズを通してLLMを体系的に評価することで,このギャップに対処する。
論文 参考訳(メタデータ) (2025-11-12T09:16:58Z) - From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy [6.124881326867511]
大きな言語モデルが広く採用されていることを踏まえ、ユーモアとAIの交わりは笑い事ではない。
本研究では,スタンドアップコメディの書き起こしからユーモラスな引用を正確に識別するモデルの有効性を評価する。
ユーモラスなパンチラインを抽出する能力について,様々なプロンプトの中からLLMを評価するために考案された新しいユーモラス検出指標を提案する。
論文 参考訳(メタデータ) (2025-04-12T02:19:53Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [38.822535662755314]
大規模言語モデル(LLM)のためのサンプル効率のよい人的評価手法を提案する。
提案手法は,LLM応答のペア間のセマンティックな差異を最大化する,コンパクトな入力命令セットを自動的に適応的に選択する。
人間の評価者は、これらのペア化された反応に対して3つの代替的な選択を行い、エロ評価を用いてグローバルなランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。