論文の概要: MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification
- arxiv url: http://arxiv.org/abs/2602.21608v1
- Date: Wed, 25 Feb 2026 06:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.722113
- Title: MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification
- Title(参考訳): MixSarc: 暗黙の意味を識別するための英語のコードミキシングコーパス
- Authors: Kazi Samin Yasar Alam, Md Tanbir Chowdhury, Tamim Ahmed, Ajwad Abrar, Md Rafid Haque,
- Abstract要約: 最初に公開されたBangla-Englishコード混成コーパスであるMixSarcを紹介した。
データセットには、ユーモア、皮肉、不快感、華やかさをラベル付けした9,087の注釈付き文が含まれている。
その結果、ユーモア検出では高い性能を示したが、クラス不均衡と実用的複雑性により、皮肉、悪感、および下品性は著しく低下した。
- 参考スコア(独自算出の注目度): 0.10874100424278171
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Bangla-English code-mixing is widespread across South Asian social media, yet resources for implicit meaning identification in this setting remain scarce. Existing sentiment and sarcasm models largely focus on monolingual English or high-resource languages and struggle with transliteration variation, cultural references, and intra-sentential language switching. To address this gap, we introduce MixSarc, the first publicly available Bangla-English code-mixed corpus for implicit meaning identification. The dataset contains 9,087 manually annotated sentences labeled for humor, sarcasm, offensiveness, and vulgarity. We construct the corpus through targeted social media collection, systematic filtering, and multi-annotator validation. We benchmark transformer-based models and evaluate zero-shot large language models under structured prompting. Results show strong performance on humor detection but substantial degradation on sarcasm, offense, and vulgarity due to class imbalance and pragmatic complexity. Zero-shot models achieve competitive micro-F1 scores but low exact match accuracy. Further analysis reveals that over 42\% of negative sentiment instances in an external dataset exhibit sarcastic characteristics. MixSarc provides a foundational resource for culturally aware NLP and supports more reliable multi-label modeling in code-mixed environments.
- Abstract(参考訳): バングラ・イングリッシュのコードミキシングは、韓国のソーシャルメディアに広く浸透しているが、この設定では暗黙的な意味の識別のためのリソースは乏しい。
既存の感情モデルと皮肉モデルは、主にモノリンガルの英語や高資源の言語に焦点を合わせ、翻訳のバリエーション、文化的な参照、および文内言語スイッチングに苦慮している。
このギャップに対処するため、暗黙的意味識別のためのBangla-Englishコード混在コーパスであるMixSarcを紹介した。
データセットには、ユーモア、皮肉、不快感、華やかさをラベル付けした9,087の注釈付き文が含まれている。
我々は,対象とするソーシャルメディア収集,体系的フィルタリング,マルチアノテーション検証を通じてコーパスを構築する。
構造化プロンプト下では,トランスフォーマーベースのモデルをベンチマークし,ゼロショット大言語モデルの評価を行う。
その結果、ユーモア検出では高い性能を示したが、クラス不均衡と実用的複雑性により、皮肉、悪感、および下品性は著しく低下した。
ゼロショットモデルは、競合するマイクロF1スコアを達成するが、精度は低い。
さらに分析したところ、外部データセットにおけるネガティブな感情のインスタンスの42\%以上は、皮肉な特性を示すことがわかった。
MixSarcは、文化的に認識されたNLPの基礎リソースを提供し、コードミックス環境でより信頼性の高いマルチラベルモデリングをサポートする。
関連論文リスト
- Toxicity-Aware Few-Shot Prompting for Low-Resource Singlish Translation [3.7678366606419345]
低リソースの言語ペア間の有害な内容の翻訳は、攻撃的な表現を衛生化するための並列データと安全フィルタの不足による課題を提起する。
コードミキシングされたSinglishセーフティコーパス上で実証された毒性保存翻訳のための2段階のフレームワークを提案する。
我々は,Singlishを包括的NLPテストベッドとして位置づけることにより,実世界の応用における社会言語的ニュアンスを維持することの重要性を強調した。
論文 参考訳(メタデータ) (2025-07-16T06:58:02Z) - Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - YouTube Comments Decoded: Leveraging LLMs for Low Resource Language Classification [0.0]
コード混合テキストにおける皮肉と感情検出のための新しい金標準コーパスを提案する。
このタスクの主な目的は、タミル・イングリッシュとマラヤラム・イングリッシュのコメントとソーシャルメディアプラットフォームから収集された投稿のコード混成データセットの中で、皮肉と感情の極性を特定することである。
我々はGPT-3.5 Turboのような最先端の大規模言語モデルを実験し、コメントを皮肉的または非皮肉的なカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-06T17:58:01Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Offense Detection in Dravidian Languages using Code-Mixing Index based
Focal Loss [1.7267596343997798]
攻撃的内容を特定する複雑さは、複数のモダリティの使用によって悪化する。
我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。
論文 参考訳(メタデータ) (2021-11-12T19:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。