論文の概要: Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection
- arxiv url: http://arxiv.org/abs/2311.02025v1
- Date: Fri, 3 Nov 2023 16:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 13:33:55.901368
- Title: Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection
- Title(参考訳): 乱用言語検出における数発言語間伝達のビクチンリスク最小化
- Authors: Gretel Liz De la Pe\~na Sarrac\'en, Paolo Rosso, Robert Litschko,
Goran Glava\v{s}, Simone Paolo Ponzetto
- Abstract要約: 高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
- 参考スコア(独自算出の注目度): 19.399281609371258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual transfer learning from high-resource to medium and low-resource
languages has shown encouraging results. However, the scarcity of resources in
target languages remains a challenge. In this work, we resort to data
augmentation and continual pre-training for domain adaptation to improve
cross-lingual abusive language detection. For data augmentation, we analyze two
existing techniques based on vicinal risk minimization and propose MIXAG, a
novel data augmentation method which interpolates pairs of instances based on
the angle of their representations. Our experiments involve seven languages
typologically distinct from English and three different domains. The results
reveal that the data augmentation strategies can enhance few-shot cross-lingual
abusive language detection. Specifically, we observe that consistently in all
target languages, MIXAG improves significantly in multidomain and multilingual
environments. Finally, we show through an error analysis how the domain
adaptation can favour the class of abusive texts (reducing false negatives),
but at the same time, declines the precision of the abusive language detection
model.
- Abstract(参考訳): 高リソースから中低リソース言語への言語間変換学習は、励みやすい結果を示している。
しかし、ターゲット言語におけるリソース不足は依然として課題である。
本研究では,言語間乱用言語検出を改善するために,ドメイン適応のためのデータ拡張と継続事前学習を利用する。
データ拡張のために,ビジナルリスク最小化に基づく2つの既存手法を解析し,その表現の角度に基づいてインスタンスのペアを補間する新しいデータ拡張手法MIXAGを提案する。
我々の実験は、英語と3つの異なるドメインとはタイプ学的に異なる7つの言語を含む。
以上の結果から,データ拡張戦略は,少数発話の言語間乱用言語検出を向上できることが判明した。
具体的には、全ての対象言語において、MIXAGはマルチドメインおよび多言語環境で大幅に改善されていることを観察する。
最後に、ドメイン適応が乱用テキストのクラス(偽陰性を減少させる)をいかに好むかをエラー解析により示すとともに、乱用言語検出モデルの精度を低下させることを示した。
関連論文リスト
- Zero-shot Cross-lingual Stance Detection via Adversarial Language Adaptation [7.242609314791262]
本稿では,ゼロショット言語間スタンス検出,多言語翻訳拡張BERT (MTAB) に対する新しいアプローチを提案する。
本手法では,ゼロショット性能を向上させるために翻訳拡張を用い,モデルの有効性をさらに向上するために,対角学習と組み合わせる。
提案手法の有効性を実証し,強力なベースラインモデルと改良されたモデルとの比較を行った。
論文 参考訳(メタデータ) (2024-04-22T16:56:43Z) - From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models [10.807067327137855]
言語モデルが多言語機能を取り入れているため、私たちの安全対策はペースを保ちます。
言語間で十分なアノテートされたデータセットがないため、私たちは翻訳データを用いて緩和手法を評価し、強化する。
これにより,翻訳品質と言語間移動が毒性軽減に及ぼす影響を検討することができる。
論文 参考訳(メタデータ) (2024-03-06T17:51:43Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - MultiTACRED: A Multilingual Version of the TAC Relation Extraction
Dataset [6.7839993945546215]
そこで本研究では,9つの言語群から12種類の言語を対象とするMultiTACREDデータセットについて紹介する。
翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、訓練済みの単言語および多言語言語モデルの微調整を実験的に評価する。
対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。
論文 参考訳(メタデータ) (2023-05-08T09:48:21Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。