論文の概要: CleanComedy: Creating Friendly Humor through Generative Techniques
- arxiv url: http://arxiv.org/abs/2412.09203v1
- Date: Thu, 12 Dec 2024 11:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:33:33.769488
- Title: CleanComedy: Creating Friendly Humor through Generative Techniques
- Title(参考訳): CleanComedy: ジェネレーティブなテクニックによるフレンドリーなユーモアの創出
- Authors: Dmitry Vikhorev, Daria Galimzianova, Svetlana Gorovaia, Elizaveta Zhemchuzhina, Ivan P. Yamshchikov,
- Abstract要約: 本稿では、英語とロシア語のジョークを部分的に注記した有毒度フィルタリングコーパスであるCleanComedyを提案する。
様々なジョークグループにおけるユーモアと毒性レベルの調査を通じて,データフィルタリング手法の有効性について検討した。
また,CreateComedyデータセットでトレーニングしたベースラインモデルを含め,人間によるジョークと生成ジョークの様々なグループを比較し,コンピュータユーモア生成の進歩について検討した。
- 参考スコア(独自算出の注目度): 5.720553544629197
- License:
- Abstract: Humor generation is a challenging task in natural language processing due to limited resources and the quality of existing datasets. Available humor language resources often suffer from toxicity and duplication, limiting their effectiveness for training robust models. This paper proposes CleanComedy, a specialized, partially annotated toxicity-filtered corpus of English and Russian jokes collected from various sources. We study the effectiveness of our data filtering approach through a survey on humor and toxicity levels in various joke groups. In addition, we study advances in computer humor generation by comparing jokes written by humans with various groups of generative jokes, including our baseline models trained on the CleanComedy datasets.
- Abstract(参考訳): ハイパージェネレーションは、限られたリソースと既存のデータセットの品質のため、自然言語処理において難しいタスクである。
利用可能なユーモアの言語資源は、しばしば毒性と重複に悩まされ、堅牢なモデルを訓練するための有効性を制限している。
本稿では, 各種ソースから収集した英語とロシア語のジョークを, 部分的にアノテートした有毒度フィルタリングコーパスであるCleanComedyを提案する。
様々なジョークグループにおけるユーモアと毒性レベルの調査を通じて,データフィルタリング手法の有効性について検討した。
また,CreateComedyデータセットでトレーニングしたベースラインモデルを含め,人間によるジョークと生成ジョークの様々なグループを比較し,コンピュータユーモア生成の進歩について検討した。
関連論文リスト
- Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - Humor Mechanics: Advancing Humor Generation with Multistep Reasoning [11.525355831490828]
マルチステップ推論を用いたユーモア生成のための動作プロトタイプを開発した。
提案手法を,人間によるジョーク,ゼロショットGPT-4生成ユーモア,その他ベースラインと比較した。
以上の結果から,多段階推論手法は生成したユーモアの質を継続的に改善することが示された。
論文 参考訳(メタデータ) (2024-05-12T13:00:14Z) - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - Text Detoxification as Style Transfer in English and Hindi [1.183205689022649]
本論文は, 有毒テキストを非有毒テキストに自動的に変換するテキストデトックス化に焦点を当てている。
類似したタスクからの知識伝達,マルチタスク学習,削除と再構築の3つのアプローチを提案する。
以上の結果から,本手法は実際の内容の保存と流布の維持を両立しながら,テキストの脱毒を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:30:41Z) - ExPUNations: Augmenting Puns with Keywords and Explanations [88.58174386894913]
我々は、キーワードの詳細なクラウドソースアノテーションで既存の句のデータセットを拡張する。
これは、パント専用の広範囲できめ細かなアノテーションを備えた最初のユーモアデータセットである。
句分類支援のための説明生成とキーワード条件付き句生成という2つのタスクを提案する。
論文 参考訳(メタデータ) (2022-10-24T18:12:02Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Humor@IITK at SemEval-2021 Task 7: Large Language Models for Quantifying
Humor and Offensiveness [2.251416625953577]
本稿では,大きなニューラルモデルとそのアンサンブルがユーモア/オフィス検出と評価に関連する複雑さを捕捉できるかどうかを検討する。
SemEval-2021 Task 7: HaHackathonによる実験により,このようなモデルを用いて合理的なユーモアと犯罪検知システムを開発できることが判明した。
論文 参考訳(メタデータ) (2021-04-02T08:22:02Z) - Dutch Humor Detection by Generating Negative Examples [5.888646114353371]
覚醒検出は通常二分分類タスクとしてモデル化され、与えられたテキストがジョークか他のタイプのテキストかを予測するように訓練される。
本稿では,本来のジョークデータセットを模倣するテキスト生成アルゴリズムを提案し,学習アルゴリズムの難易度を高める。
古典的ニューラルネットワークアプローチのユーモア検出能力と,最先端のオランダ語モデルであるRobBERTとの比較を行った。
論文 参考訳(メタデータ) (2020-10-26T15:15:10Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。