論文の概要: UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles
for Detecting Patronizing and Condescending Language
- arxiv url: http://arxiv.org/abs/2204.08304v1
- Date: Mon, 18 Apr 2022 13:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 19:47:21.127356
- Title: UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles
for Detecting Patronizing and Condescending Language
- Title(参考訳): UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles for Detecting Patronizing and Condescending Language
- Authors: David Koleczek, Alex Scarlatos, Siddha Karakare, Preshma Linet Pereira
- Abstract要約: PCL(Patronizing and condescending Language)は至る所にあるが、メディアによる脆弱なコミュニティへの利用に焦点を当てることは滅多にない。
本稿では,SemEval 2022 Task 4: Patronizing and Condescending Language Detectionに提出された言語検出システムについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Patronizing and condescending language (PCL) is everywhere, but rarely is the
focus on its use by media towards vulnerable communities. Accurately detecting
PCL of this form is a difficult task due to limited labeled data and how subtle
it can be. In this paper, we describe our system for detecting such language
which was submitted to SemEval 2022 Task 4: Patronizing and Condescending
Language Detection. Our approach uses an ensemble of pre-trained language
models, data augmentation, and optimizing the threshold for detection.
Experimental results on the evaluation dataset released by the competition
hosts show that our work is reliably able to detect PCL, achieving an F1 score
of 55.47% on the binary classification task and a macro F1 score of 36.25% on
the fine-grained, multi-label detection task.
- Abstract(参考訳): PCL(Patronizing and condescending Language)は至る所にあるが、メディアによる脆弱なコミュニティへの利用に焦点を当てることは滅多にない。
この形式のPCLを正確に検出することは、ラベル付きデータに制限があるため困難である。
本稿では,SemEval 2022 Task 4: Patronizing and Condescending Language Detectionに提出された言語検出システムについて述べる。
本手法では,事前学習した言語モデル,データ拡張,検出しきい値の最適化を行う。
コンペティションホストが公表した評価データセットにおける実験結果から,本研究は確実にpclの検出が可能であり,二分分類タスクではf1スコア55.47%,細粒度マルチラベル検出タスクでは36.25%のマクロf1スコアが得られた。
関連論文リスト
- KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文 参考訳(メタデータ) (2024-02-21T10:09:56Z) - DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - BEIKE NLP at SemEval-2022 Task 4: Prompt-Based Paragraph Classification
for Patronizing and Condescending Language Detection [13.944149742291788]
PCL検出タスクは、メディアの脆弱なコミュニティを保護し、あるいは支持している言語を特定することを目的としている。
本稿では,段落分類における素早い学習の力を活用した解法について紹介する。
論文 参考訳(メタデータ) (2022-08-02T08:38:47Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - SATLab at SemEval-2022 Task 4: Trying to Detect Patronizing and
Condescending Language with only Character and Word N-grams [0.0]
SemEval-2022タスク4において,文字と単語n-gramのみを入力したロジスティック回帰モデルを提案する。
タスクに関する知識を使わずに推測しようとするシステムのパフォーマンスをはるかに上回る平均的なレベルのパフォーマンスを得たが、最高のチームよりもはるかに低い。
論文 参考訳(メタデータ) (2022-03-10T13:09:48Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - UPV at CheckThat! 2021: Mitigating Cultural Differences for Identifying
Multilingual Check-worthy Claims [6.167830237917659]
本稿では,意図しないバイアスを軽減するための補助課題として,言語識別タスクを提案する。
その結果,言語識別とチェックアワーなクレーム検出タスクを併用することで,選択した言語の性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2021-09-19T21:46:16Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。