論文の概要: StandUp4AI: A New Multilingual Dataset for Humor Detection in Stand-up Comedy Videos
- arxiv url: http://arxiv.org/abs/2505.18903v1
- Date: Sat, 24 May 2025 23:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.738431
- Title: StandUp4AI: A New Multilingual Dataset for Humor Detection in Stand-up Comedy Videos
- Title(参考訳): StandUp4AI: スタンドアップコメディビデオにおけるHummor検出のための新しい多言語データセット
- Authors: Valentin Barriere, Nahuel Gomez, Leo Hemamou, Sofia Callejas, Brian Ravenet,
- Abstract要約: 7つの言語でスタンドアップコメディーのマルチモーダルデータセットを提案する。
データセット全体が自動的にアノテートされます。
本稿では,音声認識誤りに基づく自動笑い検出手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aiming towards improving current computational models of humor detection, we propose a new multimodal dataset of stand-up comedies, in seven languages: English, French, Spanish, Italian, Portuguese, Hungarian and Czech. Our dataset of more than 330 hours, is at the time of writing the biggest available for this type of task, and the most diverse. The whole dataset is automatically annotated in laughter (from the audience), and the subpart left for model validation is manually annotated. Contrary to contemporary approaches, we do not frame the task of humor detection as a binary sequence classification, but as word-level sequence labeling, in order to take into account all the context of the sequence and to capture the continuous joke tagging mechanism typically occurring in natural conversations. As par with unimodal baselines results, we propose a method for e propose a method to enhance the automatic laughter detection based on Audio Speech Recognition errors. Our code and data are available online: https://tinyurl.com/EMNLPHumourStandUpPublic
- Abstract(参考訳): ユーモア検出の現在の計算モデルの改善を目的として,我々は,英語,フランス語,スペイン語,イタリア語,ポルトガル語,ハンガリー語,チェコ語という7つの言語で,スタンドアップコメディーのマルチモーダルデータセットを提案する。
この330時間以上のデータセットは、この種のタスクで利用可能な最大で、最も多様なタスクを記述している時点です。
データセット全体が(オーディエンスから)笑いで自動的にアノテートされ、モデル検証のために残されたサブパートが手動でアノテートされます。
現代的アプローチとは対照的に、ユーモア検出のタスクはバイナリシーケンス分類としてではなく、単語レベルのシーケンスラベリングとして、シーケンスのすべてのコンテキストを考慮し、通常自然な会話で発生する連続的ジョークタグ付けメカニズムを捉える。
そこで本研究では,音声音声認識の誤りに基づく自動笑い検出手法を提案する。
私たちのコードとデータはオンラインで入手できる。 https://tinyurl.com/EMNLPHumourStandUpPublic
関連論文リスト
- MAVOS-DD: Multilingual Audio-Video Open-Set Deepfake Detection Benchmark [108.46287432944392]
マルチリンガル・オーディオ・ビデオ・ディープフェイク検出のための大規模オープンセット・ベンチマークを初めて提示する。
私たちのデータセットは8つの言語で250時間以上の実ビデオと偽ビデオで構成されています。
各言語について、偽ビデオは7つの異なるディープフェイク生成モデルで生成される。
論文 参考訳(メタデータ) (2025-05-16T10:42:30Z) - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - "So You Think You're Funny?": Rating the Humour Quotient in Standup
Comedy [24.402762942487367]
そこで我々は,聴衆の笑い声を用いて,ユーモアに満ちたスコアでトレーニングデータをアノテートするための新しいスコアリング機構を考案した。
このユーモアスコアを5点スケール(0-4)で計算するために、各クリップにおける笑いの正規化期間(笑い時間で割った笑い時間)を用いる。
このデータセットを使用して、オーディオとその対応するテキストから、5ポイントのスケールで「楽しい」スコアを提供するモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-25T09:46:46Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - Parallel Attention Network with Sequence Matching for Video Grounding [56.649826885121264]
ビデオのグラウンドティングは、意味的に言語クエリに対応する時間モーメントを検索することを目的としている。
この課題を解決するために、シーケンスマッチング(SeqPAN)を備えた並列アテンションネットワークを提案します。
論文 参考訳(メタデータ) (2021-05-18T12:43:20Z) - Dutch Humor Detection by Generating Negative Examples [5.888646114353371]
覚醒検出は通常二分分類タスクとしてモデル化され、与えられたテキストがジョークか他のタイプのテキストかを予測するように訓練される。
本稿では,本来のジョークデータセットを模倣するテキスト生成アルゴリズムを提案し,学習アルゴリズムの難易度を高める。
古典的ニューラルネットワークアプローチのユーモア検出能力と,最先端のオランダ語モデルであるRobBERTとの比較を行った。
論文 参考訳(メタデータ) (2020-10-26T15:15:10Z) - ColBERT: Using BERT Sentence Embedding in Parallel Neural Networks for
Computational Humor [0.0]
本稿では,ユーモアの一般的な言語理論に基づいて,短いテキストでユーモアを検出・評価するための新しいアプローチを提案する。
提案手法は,与えられたテキストの文を分離し,BERTモデルを用いて各テキストの埋め込みを生成する。
我々はこの論文に、20万の形式的な短文からなるユーモア検出のための新しいデータセットを添付した。
提案モデルでは, 一般モデル, 最先端モデルより優れるユーモア検出実験において, 0.982, 0.869のF1スコアを得た。
論文 参考訳(メタデータ) (2020-04-27T13:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。