論文の概要: How Effective is Incongruity? Implications for Code-mix Sarcasm
Detection
- arxiv url: http://arxiv.org/abs/2202.02702v1
- Date: Sun, 6 Feb 2022 04:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 08:34:40.082761
- Title: How Effective is Incongruity? Implications for Code-mix Sarcasm
Detection
- Title(参考訳): 共生はどの程度有効か?
Code-mix Sarcasm Detection の意義
- Authors: Aditya Shah, Chandresh Kumar Maurya
- Abstract要約: sarcasmは、下流のNLPタスクにいくつかの課題をもたらす。
本稿では,fastTextで学習したサブワードレベルの埋め込みによって不整合を捕捉する手法を提案する。
提案モデルでは,事前学習した多言語モデルに匹敵するHinglishデータセットのF1スコアを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The presence of sarcasm in conversational systems and social media like
chatbots, Facebook, Twitter, etc. poses several challenges for downstream NLP
tasks. This is attributed to the fact that the intended meaning of a sarcastic
text is contrary to what is expressed. Further, the use of code-mix language to
express sarcasm is increasing day by day. Current NLP techniques for code-mix
data have limited success due to the use of different lexicon, syntax, and
scarcity of labeled corpora. To solve the joint problem of code-mixing and
sarcasm detection, we propose the idea of capturing incongruity through
sub-word level embeddings learned via fastText. Empirical results shows that
our proposed model achieves F1-score on code-mix Hinglish dataset comparable to
pretrained multilingual models while training 10x faster and using a lower
memory footprint
- Abstract(参考訳): 会話システムやチャットボット、Facebook、Twitterなどのソーシャルメディアにおける皮肉の存在は、下流のNLPタスクにいくつかの課題をもたらす。
これは、sarcastic テキストの意図した意味が表現されたものとは逆であるという事実による。
さらに、皮肉を表現するためのコード混合言語の使用も日々増えている。
コードミックスデータに対する現在のNLP技術は、異なる語彙、構文、ラベル付きコーパスの不足により、限られた成功を収めている。
コードミキシングとサルカズム検出の連成問題を解決するために,fastTextで学習したサブワードレベルの埋め込みによって不整合を捕捉する手法を提案する。
実験結果から,提案モデルが事前学習した多言語モデルに匹敵するコードミックスHinglishデータセット上でF1スコアを達成し,学習速度が10倍速く,メモリフットプリントが低いことを示す。
関連論文リスト
- Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - How to Describe Images in a More Funny Way? Towards a Modular Approach
to Cross-Modal Sarcasm Generation [62.89586083449108]
本稿では,CMSG(Cross-modal sarcasm Generation)の新たな問題,すなわち,与えられた画像に対してサーカシックな記述を生成することについて検討する。
CMSGは、異なるモード間の相関だけでなく、サルカズムの特性をモデルが満たさなければならないため、困難である。
クロスモデルサルカズム生成のための抽出・生成・生成に基づくモジュール法(EGRM)を提案する。
論文 参考訳(メタデータ) (2022-11-20T14:38:24Z) - Parallel Deep Learning-Driven Sarcasm Detection from Pop Culture Text
and English Humor Literature [0.76146285961466]
ベンチマークポップカルチャー Sarcasm corpus のサーカシックな単語分布特徴を手作業で抽出する。
このような単語から重み付きベクトルからなる入力シーケンスを生成する。
提案するサルカズム検出モデルは,提案したデータセットを用いてトレーニングした場合,98.95%のトレーニング精度をピークとする。
論文 参考訳(メタデータ) (2021-06-10T14:01:07Z) - Interpretable Multi-Head Self-Attention model for Sarcasm Detection in
social media [0.0]
sarcastic expressionの曖昧さは、sarcasmの発見を非常に困難にしている。
マルチヘッドセルフアテンションとゲートリカレントユニットを用いた解釈可能なディープラーニングモデルを開発する。
本稿では,複数のデータセットで最新の結果を得る手法の有効性を示す。
論文 参考訳(メタデータ) (2021-01-14T21:39:35Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z) - "Did you really mean what you said?" : Sarcasm Detection in
Hindi-English Code-Mixed Data using Bilingual Word Embeddings [0.0]
我々は、カスタム単語埋め込みを訓練するためのツイートのコーパスと、皮肉検出のためのラベル付きHinglishデータセットを提示する。
我々は,ヒンディー語と英語の混合ツイートにおける皮肉検出の問題に対処するために,ディープラーニングに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-01T11:41:44Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z) - Sarcasm Detection using Context Separators in Online Discourse [3.655021726150369]
サルカズム(Sarcasm)は、意味が暗黙的に伝えられる複雑な形態の言語である。
本研究では,RoBERTa_largeを用いて2つのデータセットの皮肉を検出する。
また,文脈単語埋め込みモデルの性能向上における文脈の重要性を主張する。
論文 参考訳(メタデータ) (2020-06-01T10:52:35Z) - MixText: Linguistically-Informed Interpolation of Hidden Space for
Semi-Supervised Text Classification [68.15015032551214]
MixTextはテキスト分類のための半教師付き学習手法である。
TMixは、隠れた空間でテキストを補間することで、大量の拡張トレーニングサンプルを生成する。
我々は、ラベルなしデータの低エントロピーラベルを推測するために、最近のデータ拡張の進歩を活用している。
論文 参考訳(メタデータ) (2020-04-25T21:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。