論文の概要: "Did you really mean what you said?" : Sarcasm Detection in
Hindi-English Code-Mixed Data using Bilingual Word Embeddings
- arxiv url: http://arxiv.org/abs/2010.00310v3
- Date: Thu, 15 Oct 2020 08:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:01:30.948569
- Title: "Did you really mean what you said?" : Sarcasm Detection in
Hindi-English Code-Mixed Data using Bilingual Word Embeddings
- Title(参考訳): 「本当に何を言ったか」 : バイリンガル語埋め込みを用いたヒンディー語コードミクスデータにおけるサーカスム検出
- Authors: Akshita Aggarwal, Anshul Wadhawan, Anshima Chaudhary, Kavita Maurya
- Abstract要約: 我々は、カスタム単語埋め込みを訓練するためのツイートのコーパスと、皮肉検出のためのラベル付きHinglishデータセットを提示する。
我々は,ヒンディー語と英語の混合ツイートにおける皮肉検出の問題に対処するために,ディープラーニングに基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increased use of social media platforms by people across the world,
many new interesting NLP problems have come into existence. One such being the
detection of sarcasm in the social media texts. We present a corpus of tweets
for training custom word embeddings and a Hinglish dataset labelled for sarcasm
detection. We propose a deep learning based approach to address the issue of
sarcasm detection in Hindi-English code mixed tweets using bilingual word
embeddings derived from FastText and Word2Vec approaches. We experimented with
various deep learning models, including CNNs, LSTMs, Bi-directional LSTMs (with
and without attention). We were able to outperform all state-of-the-art
performances with our deep learning models, with attention based Bi-directional
LSTMs giving the best performance exhibiting an accuracy of 78.49%.
- Abstract(参考訳): 世界中の人々によるソーシャルメディアプラットフォームの利用の増加に伴い、興味深いNLP問題が数多く発生している。
一つは、ソーシャルメディアのテキストにおける皮肉の検出である。
本稿では,カスタム単語埋め込み学習のためのツイートコーパスと,サーカズム検出のためのラベル付きhinglishデータセットを提案する。
我々は,FastText と Word2Vec から派生したバイリンガル単語埋め込みを用いて,ヒンディー語と英語の混合ツイートにおけるサルカズム検出の問題に対処する深層学習手法を提案する。
CNN,LSTM,双方向LSTM(無注意・無注意)など,さまざまなディープラーニングモデルの実験を行った。
私たちはディープラーニングモデルで最先端のパフォーマンスをすべて上回り、注目に基づく双方向LSTMは78.49%の精度で最高のパフォーマンスを実現しました。
関連論文リスト
- Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - How Effective is Incongruity? Implications for Code-mix Sarcasm
Detection [0.0]
sarcasmは、下流のNLPタスクにいくつかの課題をもたらす。
本稿では,fastTextで学習したサブワードレベルの埋め込みによって不整合を捕捉する手法を提案する。
提案モデルでは,事前学習した多言語モデルに匹敵するHinglishデータセットのF1スコアを実現する。
論文 参考訳(メタデータ) (2022-02-06T04:05:09Z) - Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文 参考訳(メタデータ) (2021-10-21T07:51:56Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Sarcasm Detection in Twitter -- Performance Impact when using Data
Augmentation: Word Embeddings [0.0]
サルカスム(Sarcasm)は、通常、誰かをモックしたり、困惑させたり、ユーモラスな目的のために使われる言葉である。
本稿では,RoBERTaを用いたTwitterにおける皮肉識別のコンテキストモデルを提案する。
サーカシックとラベル付けされたデータの20%を増やすために、データ拡張を使用する場合、iSarcasmデータセットで3.2%の性能向上を実現した。
論文 参考訳(メタデータ) (2021-08-23T04:24:12Z) - Parallel Deep Learning-Driven Sarcasm Detection from Pop Culture Text
and English Humor Literature [0.76146285961466]
ベンチマークポップカルチャー Sarcasm corpus のサーカシックな単語分布特徴を手作業で抽出する。
このような単語から重み付きベクトルからなる入力シーケンスを生成する。
提案するサルカズム検出モデルは,提案したデータセットを用いてトレーニングした場合,98.95%のトレーニング精度をピークとする。
論文 参考訳(メタデータ) (2021-06-10T14:01:07Z) - Towards Emotion Recognition in Hindi-English Code-Mixed Data: A
Transformer Based Approach [0.0]
感情検出のためのラベル付きhinglishデータセットを提案する。
ヒンディー語と英語の混成ツイートの感情を検出するための深層学習に基づくアプローチに注目した。
論文 参考訳(メタデータ) (2021-02-19T14:07:20Z) - Interpretable Multi-Head Self-Attention model for Sarcasm Detection in
social media [0.0]
sarcastic expressionの曖昧さは、sarcasmの発見を非常に困難にしている。
マルチヘッドセルフアテンションとゲートリカレントユニットを用いた解釈可能なディープラーニングモデルを開発する。
本稿では,複数のデータセットで最新の結果を得る手法の有効性を示す。
論文 参考訳(メタデータ) (2021-01-14T21:39:35Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。