論文の概要: Revealing the impact of synthetic native samples and multi-tasking strategies in Hindi-English code-mixed humour and sarcasm detection
- arxiv url: http://arxiv.org/abs/2412.12761v1
- Date: Tue, 17 Dec 2024 10:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:47.220256
- Title: Revealing the impact of synthetic native samples and multi-tasking strategies in Hindi-English code-mixed humour and sarcasm detection
- Title(参考訳): ヒンディー・イングリッシュ・コード混合ユーモアとサルカズム検出における合成ネイティブサンプルの影響とマルチタスク戦略の解明
- Authors: Debajyoti Mazumder, Aakash Kumar, Jasabanta Patro,
- Abstract要約: コード混合ユーモアとサルカズム検出を改善する3つの手法を実験した。
ネイティブなサンプルミキシングでは、コードミキシングトレーニングセットに単言語タスクサンプルを追加しました。
MTL学習では、意味論的タスクのネイティブとコード混合のサンプルを頼りにしました。
また,VMLM学習におけるVMLMの有効性を,数ショットのコンテキストプロンプトを用いて評価した。
- 参考スコア(独自算出の注目度): 2.7582789611575897
- License:
- Abstract: In this paper, we reported our experiments with various strategies to improve code-mixed humour and sarcasm detection. We did all of our experiments for Hindi-English code-mixed scenario, as we have the linguistic expertise for the same. We experimented with three approaches, namely (i) native sample mixing, (ii) multi-task learning (MTL), and (iii) prompting very large multilingual language models (VMLMs). In native sample mixing, we added monolingual task samples in code-mixed training sets. In MTL learning, we relied on native and code-mixed samples of a semantically related task (hate detection in our case). Finally, in our third approach, we evaluated the efficacy of VMLMs via few-shot context prompting. Some interesting findings we got are (i) adding native samples improved humor (raising the F1-score up to 6.76%) and sarcasm (raising the F1-score up to 8.64%) detection, (ii) training MLMs in an MTL framework boosted performance for both humour (raising the F1-score up to 10.67%) and sarcasm (increment up to 12.35% in F1-score) detection, and (iii) prompting VMLMs couldn't outperform the other approaches. Finally, our ablation studies and error analysis discovered the cases where our model is yet to improve. We provided our code for reproducibility.
- Abstract(参考訳): 本稿では,コード混合ユーモアとサルカズム検出を改善するための様々な手法による実験を報告する。
私たちはすべての実験をヒンディー語と英語の混成シナリオで行いました。
私たちは3つのアプローチ、すなわち
(i)ネイティブ・サンプル・ミキシング
(二)マルチタスク学習(MTL)、及び
(iii)非常に大きな多言語言語モデル(VMLM)の推進。
ネイティブなサンプルミキシングでは、コードミキシングトレーニングセットに単言語タスクサンプルを追加しました。
MTL学習では,意味的関連タスク(私たちの場合のハッシュ検出)のネイティブとコード混合のサンプルを頼りにしていた。
最後に、第3のアプローチで、数ショットのコンテキストプロンプトによるVMLMの有効性を評価した。
興味深い発見がいくつかあります
(i)ネイティブサンプルの追加により、ユーモア(F1スコアが6.76%まで上昇)と皮肉(F1スコアが8.64%まで上昇)が改善された。
(II)MTLフレームワークにおけるMLMのトレーニングは、ユーモア(F1スコアが10.67%まで上昇する)とサルカズム(F1スコアが12.35%まで上昇する)の両方のパフォーマンスを高め、そして、
第三に、VMLMが他のアプローチより優れていなかったこと。
最終的に、我々のアブレーション研究とエラー分析により、我々のモデルがまだ改善されていないケースが見つかった。
私たちは再現性のためにコードを提供した。
関連論文リスト
- Improving code-mixed hate detection by native sample mixing: A case study for Hindi-English code-mixed scenario [2.7582789611575897]
本稿では,厳密な実証実験を通じてギャップを埋めようとしている。
我々は、ヒンディー語と英語のコード混合設定をケーススタディとみなす。
コード混合トレーニングセットにネイティブなヘイトサンプルを追加することで、少量であっても、コード混合ヘイト検出のための文学のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2024-05-31T11:43:31Z) - TEII: Think, Explain, Interact and Iterate with Large Language Models to Solve Cross-lingual Emotion Detection [5.942385193284472]
言語間感情検出により,グローバルな傾向,世論,社会現象を大規模に分析することができる。
我々のシステムは0.16F1スコアの絶対値でベースラインを上回り、競合するシステムの中では2位にランクインした。
論文 参考訳(メタデータ) (2024-05-27T12:47:40Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models [57.225289079198454]
マルチ並列コーパスを用いてmPLMから言語間の類似性を誘導する言語類似度尺度mPLMSimを提案する。
本研究は,mPLM-Simが,レキシコ,系譜系,地理的スプラックバンドなどの言語類似性尺度と適度に高い相関を示すことを示す。
さらに,mPLMSimが低レベル構文タスクと高レベル意味タスクの両方で実験を行うことで,ゼロショットの言語間移動に有効であるかどうかについても検討する。
論文 参考訳(メタデータ) (2023-05-23T04:44:26Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [8.158067688043554]
この研究は、中国初の総合的な小サンプル評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介した。
1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。
次に、最先端の複数ショット学習手法を実装し、その性能をFewCLUEベンチマークの微調整およびゼロショット学習方式と比較する。
論文 参考訳(メタデータ) (2021-07-15T17:51:25Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。