論文の概要: cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media
Comments using Spatio-Temporally Retrained Language Models
- arxiv url: http://arxiv.org/abs/2308.10370v2
- Date: Fri, 25 Aug 2023 01:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:31:25.847642
- Title: cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media
Comments using Spatio-Temporally Retrained Language Models
- Title(参考訳): cantnlp@LT-EDI-2023:時空間言語モデルを用いたソーシャルメディアコメントにおけるホモフォビア/トランスフォビア検出
- Authors: Sidney G.-J. Wong, Matthew Durward, Benjamin Adams and Jonathan Dunn
- Abstract要約: 本稿ではLTERAN@LP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。
我々は、BERTに基づく言語モデルを用いて、5つの言語条件におけるソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。
重み付きマクロ平均F1スコアに基づくマラヤラムの7ラベル分類システムを開発した。
- 参考スコア(独自算出の注目度): 0.9012198585960441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our multiclass classification system developed as part
of the LTEDI@RANLP-2023 shared task. We used a BERT-based language model to
detect homophobic and transphobic content in social media comments across five
language conditions: English, Spanish, Hindi, Malayalam, and Tamil. We
retrained a transformer-based crosslanguage pretrained language model,
XLMRoBERTa, with spatially and temporally relevant social media language data.
We also retrained a subset of models with simulated script-mixed social media
language data with varied performance. We developed the best performing
seven-label classification system for Malayalam based on weighted macro
averaged F1 score (ranked first out of six) with variable performance for other
language and class-label conditions. We found the inclusion of this
spatio-temporal data improved the classification performance for all language
and task conditions when compared with the baseline. The results suggests that
transformer-based language classification systems are sensitive to
register-specific and language-specific retraining.
- Abstract(参考訳): 本稿ではLTEDI@RANLP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。
我々はBERTベースの言語モデルを用いて、英語、スペイン語、ヒンディー語、マラヤラム語、タミル語という5つの言語条件で、ソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。
トランスフォーマーを用いた言語事前学習モデルXLMRoBERTaを,空間的・時間的に関係のあるソーシャルメディア言語データを用いて再訓練した。
また、様々なパフォーマンスのソーシャルメディア言語データをシミュレートしたモデルのサブセットをトレーニングしました。
重み付きマクロ平均f1スコア(第1位は6位)と他の言語およびクラスラベル条件における可変性能に基づくマラヤラムの7ラベル分類システムを開発した。
この時空間データを含めることで,ベースラインと比較した場合の言語・タスク条件の分類性能が改善された。
その結果,トランスフォーマーに基づく言語分類システムは,レジスタ特化および言語特化に敏感であることが示唆された。
関連論文リスト
- cantnlp@LT-EDI-2024: Automatic Detection of Anti-LGBTQ+ Hate Speech in
Under-resourced Languages [0.0]
本稿では,LT-EDI-2024における共有タスクの一環として開発されたソーシャルメディアコメント検出システムにおけるホモフォビア/トランスフォビアについて述べる。
10の言語条件に対するマルチクラス分類モデルを開発するために,トランスフォーマーに基づくアプローチを採用した。
我々は,ソーシャルメディア言語の言語的現実を反映させるために,ドメイン適応中にスクリプト変更言語データの合成および有機的インスタンスを導入した。
論文 参考訳(メタデータ) (2024-01-28T21:58:04Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural
Cross-Lingual Information Retrieval [15.902630454568811]
本稿では,辞書や翻訳表などの外部単語レベルの知識を取り入れた,MAT(Mixed Attention Transformer)を提案する。
翻訳知識をアテンションマトリックスに符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語にフォーカスすることができる。
論文 参考訳(メタデータ) (2021-09-07T00:33:14Z) - WangchanBERTa: Pretraining transformer-based Thai Language Models [2.186960190193067]
大規模で重複したクリーンなトレーニングセット(総サイズ78GB)上で,RoBERTaベースアーキテクチャに基づく言語モデルを事前訓練する。
我々は,タイの最も重要な保存空間に特有のテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
論文 参考訳(メタデータ) (2021-01-24T03:06:34Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。