論文の概要: Model and Evaluation: Towards Fairness in Multilingual Text
Classification
- arxiv url: http://arxiv.org/abs/2303.15697v1
- Date: Tue, 28 Mar 2023 03:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:41:06.003244
- Title: Model and Evaluation: Towards Fairness in Multilingual Text
Classification
- Title(参考訳): モデルと評価:多言語テキスト分類における公平性に向けて
- Authors: Nankai Lin, Junheng He, Zhenghang Tang, Dong Zhou, Aimin Yang
- Abstract要約: コントラスト学習に基づく多言語テキスト分類のためのデバイアス化フレームワークを提案する。
このモデルには、多言語テキスト表現モジュール、言語融合モジュール、テキストデバイアスモジュール、テキスト分類モジュールの4つのモジュールが含まれている。
多言語テキスト分類のための多次元フェアネス評価フレームワークを提案し、モデルの単言語的等式差、多言語的等式差、多言語的等式性能差、フェアネス戦略の破壊性を評価する。
- 参考スコア(独自算出の注目度): 6.697876965452054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, more and more research has focused on addressing bias in text
classification models. However, existing research mainly focuses on the
fairness of monolingual text classification models, and research on fairness
for multilingual text classification is still very limited. In this paper, we
focus on the task of multilingual text classification and propose a debiasing
framework for multilingual text classification based on contrastive learning.
Our proposed method does not rely on any external language resources and can be
extended to any other languages. The model contains four modules: multilingual
text representation module, language fusion module, text debiasing module, and
text classification module. The multilingual text representation module uses a
multilingual pre-trained language model to represent the text, the language
fusion module makes the semantic spaces of different languages tend to be
consistent through contrastive learning, and the text debiasing module uses
contrastive learning to make the model unable to identify sensitive attributes'
information. The text classification module completes the basic tasks of
multilingual text classification. In addition, the existing research on the
fairness of multilingual text classification is relatively simple in the
evaluation mode. The evaluation method of fairness is the same as the
monolingual equality difference evaluation method, that is, the evaluation is
performed on a single language. We propose a multi-dimensional fairness
evaluation framework for multilingual text classification, which evaluates the
model's monolingual equality difference, multilingual equality difference,
multilingual equality performance difference, and destructiveness of the
fairness strategy. We hope that our work can provide a more general debiasing
method and a more comprehensive evaluation framework for multilingual text
fairness tasks.
- Abstract(参考訳): 近年,テキスト分類モデルにおけるバイアスに対処する研究が増えている。
しかし、既存の研究は主に単言語テキスト分類モデルの公平性に焦点を当てており、多言語テキスト分類の公平性の研究はいまだに限られている。
本稿では,多言語テキスト分類の課題に着目し,コントラスト学習に基づく多言語テキスト分類のためのデバイアスフレームワークを提案する。
提案手法はいかなる外部言語リソースにも依存せず,他の言語にも拡張可能である。
このモデルは、多言語テキスト表現モジュール、language fusionモジュール、text debiasingモジュール、text classificationモジュールの4つのモジュールを含んでいる。
多言語テキスト表現モジュールは、テキストを表現するために多言語事前訓練された言語モデルを使用し、言語融合モジュールは、異なる言語のセマンティックスペースをコントラスト学習を通じて一貫性のあるものにし、テキストデバイアスモジュールはコントラスト学習を使用して、モデルに機密属性の情報を特定することができないようにする。
テキスト分類モジュールは、多言語テキスト分類の基本タスクを完成させる。
また,多言語テキスト分類の公平性に関する既存の研究は,評価モードでは比較的単純である。
公平性の評価方法は単言語同値差評価方法と同じであり、単一の言語で評価を行う。
本稿では,多言語間等性差,多言語間等性差,多言語間等性性能差,公平性戦略の破壊性を評価する多言語テキスト分類のための多次元公平性評価フレームワークを提案する。
我々は,多言語テキストフェアネスタスクに対して,より汎用的なデバイアス手法とより包括的な評価フレームワークを提供できることを願っている。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。