論文の概要: Dutch Humor Detection by Generating Negative Examples
- arxiv url: http://arxiv.org/abs/2010.13652v1
- Date: Mon, 26 Oct 2020 15:15:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 17:44:58.764741
- Title: Dutch Humor Detection by Generating Negative Examples
- Title(参考訳): 負の例生成によるオランダのユーモア検出
- Authors: Thomas Winters, Pieter Delobelle
- Abstract要約: 覚醒検出は通常二分分類タスクとしてモデル化され、与えられたテキストがジョークか他のタイプのテキストかを予測するように訓練される。
本稿では,本来のジョークデータセットを模倣するテキスト生成アルゴリズムを提案し,学習アルゴリズムの難易度を高める。
古典的ニューラルネットワークアプローチのユーモア検出能力と,最先端のオランダ語モデルであるRobBERTとの比較を行った。
- 参考スコア(独自算出の注目度): 5.888646114353371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting if a text is humorous is a hard task to do computationally, as it
usually requires linguistic and common sense insights. In machine learning,
humor detection is usually modeled as a binary classification task, trained to
predict if the given text is a joke or another type of text. Rather than using
completely different non-humorous texts, we propose using text generation
algorithms for imitating the original joke dataset to increase the difficulty
for the learning algorithm. We constructed several different joke and non-joke
datasets to test the humor detection abilities of different language
technologies. In particular, we compare the humor detection capabilities of
classic neural network approaches with the state-of-the-art Dutch language
model RobBERT. In doing so, we create and compare the first Dutch humor
detection systems. We found that while other language models perform well when
the non-jokes came from completely different domains, RobBERT was the only one
that was able to distinguish jokes from generated negative examples. This
performance illustrates the usefulness of using text generation to create
negative datasets for humor recognition, and also shows that transformer models
are a large step forward in humor detection.
- Abstract(参考訳): テキストがユーモラスかどうかを検出することは、通常、言語的、常識的な洞察を必要とするため、計算的に行うのが難しい。
機械学習では、ユーモア検出は通常二分分類タスクとしてモデル化され、与えられたテキストがジョークか他のタイプのテキストかを予測するように訓練される。
全く異なる非ハーモラステキストを使用するのではなく、元のジョークデータセットを模倣するテキスト生成アルゴリズムを用いて学習アルゴリズムの難易度を高めることを提案する。
さまざまな言語技術のユーモア検出能力をテストするために,ジョークと非冗談のデータセットをいくつか構築した。
特に、古典的ニューラルネットワークアプローチのユーモア検出能力を、最先端のオランダ語モデルRobBERTと比較する。
そこで,オランダ初のユーモア検出システムを作成し,比較した。
他の言語モデルは、非ジョークがまったく異なるドメインから来たときにうまく機能するのに対し、robbertだけがジョークとネガティブな例を区別することができた。
この性能は、テキスト生成を用いてユーモア認識のための負のデータセットを作成することの有用性を示し、また、トランスフォーマーモデルがユーモア検出の大きな一歩であることを示す。
関連論文リスト
- Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - The Naughtyformer: A Transformer Understands Offensive Humor [63.05016513788047]
Redditから抽出された新しいジョークデータセットを導入し、Naughtyformerと呼ばれる微調整されたトランスフォーマーを用いてサブタイプ分類タスクを解決する。
本モデルでは, ジョークの攻撃性の検出が, 最先端の手法と比較して有意に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-25T20:37:58Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - ExPUNations: Augmenting Puns with Keywords and Explanations [88.58174386894913]
我々は、キーワードの詳細なクラウドソースアノテーションで既存の句のデータセットを拡張する。
これは、パント専用の広範囲できめ細かなアノテーションを備えた最初のユーモアデータセットである。
句分類支援のための説明生成とキーワード条件付き句生成という2つのタスクを提案する。
論文 参考訳(メタデータ) (2022-10-24T18:12:02Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - On Decoding Strategies for Neural Text Generators [73.48162198041884]
言語生成タスクと復号化戦略の相互作用について検討する。
生成したテキストの属性の変化をデコード戦略とタスクの両方の関数として測定する。
以上の結果から,これまで観察された結果と意外な結果の両方が明らかとなった。
論文 参考訳(メタデータ) (2022-03-29T16:25:30Z) - Humor@IITK at SemEval-2021 Task 7: Large Language Models for Quantifying
Humor and Offensiveness [2.251416625953577]
本稿では,大きなニューラルモデルとそのアンサンブルがユーモア/オフィス検出と評価に関連する複雑さを捕捉できるかどうかを検討する。
SemEval-2021 Task 7: HaHackathonによる実験により,このようなモデルを用いて合理的なユーモアと犯罪検知システムを開発できることが判明した。
論文 参考訳(メタデータ) (2021-04-02T08:22:02Z) - Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting
Incongruity-Based Features for Humor Recognition [0.6445605125467573]
ジョークを2つの異なるコンポーネントに分割します。セットアップとパンチラインです。
ユーモアの不整合理論に触発され、セマンティック不確実性を生み出す部分としてセットをモデル化する。
ますます強力な言語モデルによって、私たちはGPT-2言語モデルにパンチラインとともにセットアップをフィードすることができた。
論文 参考訳(メタデータ) (2020-12-22T13:48:09Z) - Let's be Humorous: Knowledge Enhanced Humor Generation [26.886255899651893]
関連する知識をセットして、パンチラインを生成する方法について検討する。
我々の知る限り、これは知識強化モデルでパンチラインを生成する最初の試みである。
実験結果から,本手法は知識を生かして,流動的で面白いパンチラインを生成できることが示唆された。
論文 参考訳(メタデータ) (2020-04-28T06:06:18Z) - ColBERT: Using BERT Sentence Embedding in Parallel Neural Networks for
Computational Humor [0.0]
本稿では,ユーモアの一般的な言語理論に基づいて,短いテキストでユーモアを検出・評価するための新しいアプローチを提案する。
提案手法は,与えられたテキストの文を分離し,BERTモデルを用いて各テキストの埋め込みを生成する。
我々はこの論文に、20万の形式的な短文からなるユーモア検出のための新しいデータセットを添付した。
提案モデルでは, 一般モデル, 最先端モデルより優れるユーモア検出実験において, 0.982, 0.869のF1スコアを得た。
論文 参考訳(メタデータ) (2020-04-27T13:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。