論文の概要: Assessing the Capabilities of LLMs in Humor:A Multi-dimensional Analysis of Oogiri Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2511.09133v1
- Date: Thu, 13 Nov 2025 01:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.425789
- Title: Assessing the Capabilities of LLMs in Humor:A Multi-dimensional Analysis of Oogiri Generation and Evaluation
- Title(参考訳): 風洞におけるLLMの能力評価:大霧の発生と評価の多次元的解析
- Authors: Ritsu Sakabe, Hwichan Kim, Tosho Hirasawa, Mamoru Komachi,
- Abstract要約: 計算のユーモアは、高度で魅力的な自然言語処理(NLP)アプリケーションを作成するためのフロンティアである。
これまでの研究は、Large Language Models (LLMs) のユーモア能力をベンチマークしてきた。
本稿では,多面的なユーモア理解の必要性を論じ,オオギリのレンズを通してLLMを体系的に評価することで,このギャップに対処する。
- 参考スコア(独自算出の注目度): 11.402855509329711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational humor is a frontier for creating advanced and engaging natural language processing (NLP) applications, such as sophisticated dialogue systems. While previous studies have benchmarked the humor capabilities of Large Language Models (LLMs), they have often relied on single-dimensional evaluations, such as judging whether something is simply ``funny.'' This paper argues that a multifaceted understanding of humor is necessary and addresses this gap by systematically evaluating LLMs through the lens of Oogiri, a form of Japanese improvisational comedy games. To achieve this, we expanded upon existing Oogiri datasets with data from new sources and then augmented the collection with Oogiri responses generated by LLMs. We then manually annotated this expanded collection with 5-point absolute ratings across six dimensions: Novelty, Clarity, Relevance, Intelligence, Empathy, and Overall Funniness. Using this dataset, we assessed the capabilities of state-of-the-art LLMs on two core tasks: their ability to generate creative Oogiri responses and their ability to evaluate the funniness of responses using a six-dimensional evaluation. Our results show that while LLMs can generate responses at a level between low- and mid-tier human performance, they exhibit a notable lack of Empathy. This deficit in Empathy helps explain their failure to replicate human humor assessment. Correlation analyses of human and model evaluation data further reveal a fundamental divergence in evaluation criteria: LLMs prioritize Novelty, whereas humans prioritize Empathy. We release our annotated corpus to the community to pave the way for the development of more emotionally intelligent and sophisticated conversational agents.
- Abstract(参考訳): 計算ユーモア(Computational humor)は、高度な対話システムのような高度な自然言語処理(NLP)アプリケーションを作成するためのフロンティアである。
これまでの研究では、LLM(Large Language Models)のユーモア能力のベンチマークが行われていたが、それらは単に‘funny’であるかどうかを判断するなど、単一の次元の評価に頼っていた。
「」本稿は、日本の即興コメディゲームの一形態である尾切のレンズを通して、LLMを体系的に評価することで、ユーモアの多面的理解が必要であり、このギャップに対処するものであると論じている。
そこで我々は,既存のOogiriデータセットを新たなソースからのデータで拡張し,LLMによって生成されたOogiriレスポンスでコレクションを拡張した。
次に、この拡張されたコレクションに、ノベルティ、Clarity、Relevance、インテリジェンス、共感、そしてStrom Funninessという6つの次元の5ポイントの絶対評価を加えて、手動で注釈を付けました。
このデータセットを用いて,2つの中核的タスクにおける最先端のLLMの能力,すなわち,創造的なOogiri応答を生成する能力,および6次元評価を用いて応答の面白さを評価する能力を評価した。
以上の結果から,LLMは低レベルと中級の人間のパフォーマンスのレベルにおいて応答を生成できるが,共感の欠如が顕著であることがわかった。
この共感の欠如は、人間のユーモア評価を再現しなかったことを説明するのに役立つ。
人間の評価データとモデル評価データの相関分析により、評価基準の基本的な相違が明らかになった: LLMはノベルティを、人間は共感を優先する。
我々は、より感情的にインテリジェントで洗練された会話エージェントを開発するための道を開くために、注釈付きコーパスをコミュニティにリリースします。
関連論文リスト
- Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。
我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。
本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文 参考訳(メタデータ) (2025-10-13T13:33:30Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - IMPersona: Evaluating Individual Level LM Impersonation [28.040025302581366]
本稿では,特定の個人の書き方や個人の知識を擬人化するためのLM評価フレームワークであるIMPersonaを紹介する。
我々は、Llama-3.1-8B-Instructのような、わずかにサイズのオープンソースモデルでさえ、関連するレベルでの偽造能力を達成することを実証した。
論文 参考訳(メタデータ) (2025-04-06T02:57:58Z) - SYNTHEMPATHY: A Scalable Empathy Corpus Generated Using LLMs Without Any Crowdsourcing [4.405248499280186]
実生活環境に対する105kの共感応答を含む大規模コーパスを開発するためのデータ生成フレームワークを提案する。
The base Mistral 7B model in our SyntheMPATHY corpus showed a increase of the average empathy score。
論文 参考訳(メタデータ) (2025-02-25T05:07:27Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization [9.934277461349696]
共感反応生成は会話エージェントの望ましい側面である。
感情接地に基づく理論駆動の嗜好データセットを構築する新しい手法を提案する。
本研究では,LLMを一般性能を維持しつつ,好みの最適化により共感応答生成に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-06-27T10:41:22Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。