論文の概要: Sarcasm Detection in a Less-Resourced Language
- arxiv url: http://arxiv.org/abs/2410.12704v1
- Date: Wed, 16 Oct 2024 16:10:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:04.710007
- Title: Sarcasm Detection in a Less-Resourced Language
- Title(参考訳): 低音源言語におけるSarcasm検出
- Authors: Lazar Đoković, Marko Robnik-Šikonja,
- Abstract要約: 我々はSlovenianのような低リソースの言語のためのSarcasm検出データセットを構築した。
機械翻訳特化中型変圧器モデルと、非常に大きな生成言語モデルである。
以上の結果から,より大型のモデルの方がより小型モデルより優れており,アンサンブルにより肉腫検出性能がわずかに向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The sarcasm detection task in natural language processing tries to classify whether an utterance is sarcastic or not. It is related to sentiment analysis since it often inverts surface sentiment. Because sarcastic sentences are highly dependent on context, and they are often accompanied by various non-verbal cues, the task is challenging. Most of related work focuses on high-resourced languages like English. To build a sarcasm detection dataset for a less-resourced language, such as Slovenian, we leverage two modern techniques: a machine translation specific medium-size transformer model, and a very large generative language model. We explore the viability of translated datasets and how the size of a pretrained transformer affects its ability to detect sarcasm. We train ensembles of detection models and evaluate models' performance. The results show that larger models generally outperform smaller ones and that ensembling can slightly improve sarcasm detection performance. Our best ensemble approach achieves an $\text{F}_1$-score of 0.765 which is close to annotators' agreement in the source language.
- Abstract(参考訳): 自然言語処理における皮肉検出タスクは、発話が皮肉であるか否かを分類しようとする。
表面的な感情を逆転させることが多いため、感情分析に関係している。
皮肉な文は文脈に強く依存しており、しばしば様々な非言語的手がかりが伴うため、課題は困難である。
関連する研究のほとんどは、英語のような高リソース言語に焦点を当てている。
Slovenianのような低リソース言語のためのサルカズム検出データセットを構築するために、機械翻訳特化中型トランスフォーマーモデルと非常に大きな生成言語モデルという2つの近代的手法を利用する。
我々は、翻訳されたデータセットの生存可能性と、事前訓練されたトランスフォーマーのサイズが、サルカズムを検出する能力にどのように影響するかを検討する。
我々は検出モデルのアンサンブルを訓練し、モデルの性能を評価する。
以上の結果から,より大型のモデルの方がより小型モデルより優れており,アンサンブルにより肉腫検出性能がわずかに向上することが示唆された。
我々のベストアンサンブルアプローチは、ソースコードにおけるアノテータの合意に近い0.765の$\text{F}_1$スコアを達成する。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - An Evaluation of State-of-the-Art Large Language Models for Sarcasm
Detection [0.0]
サルカズム(英: Sarcasm)とは、彼が言いたいことの逆を意味する人による言葉の使用である。
NLPの最近の革新により、サルカズムを検出する可能性がさらに高まった。
論文 参考訳(メタデータ) (2023-10-07T14:45:43Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Sarcasm Detection Framework Using Emotion and Sentiment Features [62.997667081978825]
本研究では,感情と感情の特徴を取り入れたモデルを提案する。
我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-11-23T15:14:44Z) - Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity
Modeling with Knowledge Enhancement [31.97249246223621]
サルカスム(Sarcasm)は、文字通りの意味と暗示意図の相違を示す言語現象である。
既存の技術のほとんどは、テキスト入力と付随する画像の間の原子レベルの不整合をモデル化しただけだった。
本稿では,マルチヘッドのクロスアテンション機構に基づく原子レベルの合同性と,グラフニューラルネットワークに基づく合成レベルの合同性の両方を探索し,サルカズム検出のための新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-07T12:44:33Z) - Sarcasm Detection in Twitter -- Performance Impact when using Data
Augmentation: Word Embeddings [0.0]
サルカスム(Sarcasm)は、通常、誰かをモックしたり、困惑させたり、ユーモラスな目的のために使われる言葉である。
本稿では,RoBERTaを用いたTwitterにおける皮肉識別のコンテキストモデルを提案する。
サーカシックとラベル付けされたデータの20%を増やすために、データ拡張を使用する場合、iSarcasmデータセットで3.2%の性能向上を実現した。
論文 参考訳(メタデータ) (2021-08-23T04:24:12Z) - Interpretable Multi-Head Self-Attention model for Sarcasm Detection in
social media [0.0]
sarcastic expressionの曖昧さは、sarcasmの発見を非常に困難にしている。
マルチヘッドセルフアテンションとゲートリカレントユニットを用いた解釈可能なディープラーニングモデルを開発する。
本稿では,複数のデータセットで最新の結果を得る手法の有効性を示す。
論文 参考訳(メタデータ) (2021-01-14T21:39:35Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - How to Probe Sentence Embeddings in Low-Resource Languages: On
Structural Design Choices for Probing Task Evaluation [82.96358326053115]
構造設計選択に対する探索作業結果の感度について検討する。
我々は、英語で識別する「安定な領域」にある設計選択を多言語で構成した埋め込みを探索する。
私たちは英語の結果が他の言語に移行しないことに気付きます。
論文 参考訳(メタデータ) (2020-06-16T12:37:50Z) - Sarcasm Detection using Context Separators in Online Discourse [3.655021726150369]
サルカズム(Sarcasm)は、意味が暗黙的に伝えられる複雑な形態の言語である。
本研究では,RoBERTa_largeを用いて2つのデータセットの皮肉を検出する。
また,文脈単語埋め込みモデルの性能向上における文脈の重要性を主張する。
論文 参考訳(メタデータ) (2020-06-01T10:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。