論文の概要: ColBERT: Using BERT Sentence Embedding in Parallel Neural Networks for
Computational Humor
- arxiv url: http://arxiv.org/abs/2004.12765v7
- Date: Thu, 1 Dec 2022 16:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 04:28:14.049580
- Title: ColBERT: Using BERT Sentence Embedding in Parallel Neural Networks for
Computational Humor
- Title(参考訳): ColBERT: 並列ニューラルネットワークにおけるBERT文の埋め込みによる計算モデル
- Authors: Issa Annamoradnejad and Gohar Zoghi
- Abstract要約: 本稿では,ユーモアの一般的な言語理論に基づいて,短いテキストでユーモアを検出・評価するための新しいアプローチを提案する。
提案手法は,与えられたテキストの文を分離し,BERTモデルを用いて各テキストの埋め込みを生成する。
我々はこの論文に、20万の形式的な短文からなるユーモア検出のための新しいデータセットを添付した。
提案モデルでは, 一般モデル, 最先端モデルより優れるユーモア検出実験において, 0.982, 0.869のF1スコアを得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automation of humor detection and rating has interesting use cases in modern
technologies, such as humanoid robots, chatbots, and virtual assistants. In
this paper, we propose a novel approach for detecting and rating humor in short
texts based on a popular linguistic theory of humor. The proposed technical
method initiates by separating sentences of the given text and utilizing the
BERT model to generate embeddings for each one. The embeddings are fed to
separate lines of hidden layers in a neural network (one line for each
sentence) to extract latent features. At last, the parallel lines are
concatenated to determine the congruity and other relationships between the
sentences and predict the target value. We accompany the paper with a novel
dataset for humor detection consisting of 200,000 formal short texts. In
addition to evaluating our work on the novel dataset, we participated in a live
machine learning competition focused on rating humor in Spanish tweets. The
proposed model obtained F1 scores of 0.982 and 0.869 in the humor detection
experiments which outperform general and state-of-the-art models. The
evaluation performed on two contrasting settings confirm the strength and
robustness of the model and suggests two important factors in achieving high
accuracy in the current task: 1) usage of sentence embeddings and 2) utilizing
the linguistic structure of humor in designing the proposed model.
- Abstract(参考訳): ユーモア検出と評価の自動化は、ヒューマノイドロボット、チャットボット、バーチャルアシスタントといった現代技術における興味深いユースケースである。
本稿では,ユーモアの一般的な言語理論に基づいて,短文におけるユーモアの検出と評価を行う新しい手法を提案する。
提案手法は,与えられたテキストの文を分離し,BERTモデルを用いて各テキストの埋め込みを生成する。
埋め込みはニューラルネットワーク(各文の1行)内の隠されたレイヤの別々の行に供給され、潜伏した特徴を抽出する。
そして、最後に平行線を連結して文間の合同性その他の関係を判定し、目標値を予測する。
20万の短い文章からなるユーモア検出のための新しいデータセットを論文に添付した。
新たなデータセットに関する作業の評価に加えて、スペインのつぶやきにおけるユーモアの評価に焦点を当てた、ライブ機械学習コンペにも参加しました。
提案モデルは, 一般モデルおよび最先端モデルに匹敵するユーモア検出実験において, 0.982, 0.869のf1スコアを得た。
2つのコントラスト設定で実施した評価により,モデルの強度と頑健性が確認でき,現在の作業における高精度化に重要な2つの要因が示唆された。
1) 文の埋め込みと使用法
2)提案モデルの設計においてユーモアの言語構造を利用する。
関連論文リスト
- CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment
of Coherence in Generated Texts [15.866519123942457]
自動生成テキストの人間知覚コヒーレンスに関する新しいベンチマークである sc CoheSentia を紹介する。
我々のベンチマークには、自動生成および人称注釈付き500の段落が含まれており、それぞれが両方の方法で注釈付けされている。
解析の結果,インクリメンタルモードにおけるアノテータ間の合意は,総合的な代替よりも高いことがわかった。
論文 参考訳(メタデータ) (2023-10-25T03:21:20Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - Integrating extracted information from bert and multiple embedding
methods with the deep neural network for humour detection [3.612189440297043]
ニュース見出しから取った短いテキストのユーモア検出のためのフレームワークを提案する。
私たちの提案フレームワーク(IBEN)は、BERTの異なる層を使用して書かれたテキストから情報を抽出しようとします。
抽出された情報は埋め込みマトリクスとしてbi-gruニューラルネットワークに送信される。
論文 参考訳(メタデータ) (2021-05-11T15:09:19Z) - Explaining Neural Network Predictions on Sentence Pairs via Learning
Word-Group Masks [21.16662651409811]
入力テキストペアから相関語をグループ化して単語相関を暗黙的に検出するグループマスク(GMASK)手法を提案する。
提案手法は4つのデータセットにまたがる2つの異なるモデルアーキテクチャ (decomposable attention model と bert) を用いて評価した。
論文 参考訳(メタデータ) (2021-04-09T17:14:34Z) - Dutch Humor Detection by Generating Negative Examples [5.888646114353371]
覚醒検出は通常二分分類タスクとしてモデル化され、与えられたテキストがジョークか他のタイプのテキストかを予測するように訓練される。
本稿では,本来のジョークデータセットを模倣するテキスト生成アルゴリズムを提案し,学習アルゴリズムの難易度を高める。
古典的ニューラルネットワークアプローチのユーモア検出能力と,最先端のオランダ語モデルであるRobBERTとの比較を行った。
論文 参考訳(メタデータ) (2020-10-26T15:15:10Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Predicting the Humorousness of Tweets Using Gaussian Process Preference
Learning [56.18809963342249]
本稿では,人間の嗜好判断と言語アノテーションの自動生成を利用して,短文のユーモラスさのランク付けと評価を学習する確率論的アプローチを提案する。
本研究は, HAHA@IberLEF 2019データにおける数値スコアの変換と, 提案手法に必要な判定アノテーションの相互変換から生じる問題点について報告する。
論文 参考訳(メタデータ) (2020-08-03T13:05:42Z) - Generating Hierarchical Explanations on Text Classification via Feature
Interaction Detection [21.02924712220406]
特徴的相互作用を検出することによって階層的な説明を構築する。
このような説明は、単語とフレーズが階層の異なるレベルでどのように結合されるかを視覚化する。
実験は、モデルに忠実であり、人間に解釈可能な説明を提供する上で、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-04-04T20:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。