論文の概要: Cross-Cultural Transfer Learning for Chinese Offensive Language
Detection
- arxiv url: http://arxiv.org/abs/2303.17927v1
- Date: Fri, 31 Mar 2023 09:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 14:44:20.693533
- Title: Cross-Cultural Transfer Learning for Chinese Offensive Language
Detection
- Title(参考訳): 中国語攻撃言語検出のためのクロスカルチャー変換学習
- Authors: Li Zhou, Laura Cabello, Yong Cao, Daniel Hershcovich
- Abstract要約: 本研究では,異なる文化背景からの攻撃的言語検出データを用いた転帰学習の効果を検討することを目的とする。
また, 言語モデルの伝達性に悪影響を及ぼす要因として, 文化特有のバイアスがあることがわかった。
しかし,数ショットの学習シナリオでは,限られた資源を用いた非英語攻撃型言語検出が期待できる可能性を示した。
- 参考スコア(独自算出の注目度): 9.341003339029221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting offensive language is a challenging task. Generalizing across
different cultures and languages becomes even more challenging: besides
lexical, syntactic and semantic differences, pragmatic aspects such as cultural
norms and sensitivities, which are particularly relevant in this context, vary
greatly. In this paper, we target Chinese offensive language detection and aim
to investigate the impact of transfer learning using offensive language
detection data from different cultural backgrounds, specifically Korean and
English. We find that culture-specific biases in what is considered offensive
negatively impact the transferability of language models (LMs) and that LMs
trained on diverse cultural data are sensitive to different features in Chinese
offensive language detection. In a few-shot learning scenario, however, our
study shows promising prospects for non-English offensive language detection
with limited resources. Our findings highlight the importance of cross-cultural
transfer learning in improving offensive language detection and promoting
inclusive digital spaces.
- Abstract(参考訳): 攻撃的言語の検出は難しい課題である。
語彙的、構文的、意味的な違いに加えて、文化的規範やセンシティビティといった実用的側面は、この文脈で特に関係するが、大きく異なる。
本稿では,中国語の攻撃的言語検出を対象とし,異文化,特に韓国語と英語からの攻撃的言語検出データを用いた移動学習の影響について検討する。
また, 言語モデル(LM)の伝達性に悪影響を及ぼす要因として, 各種の文化データに基づいて訓練されたLMが, 中国における攻撃的言語検出の異なる特徴に敏感であることがわかった。
しかし, 少数の学習シナリオでは, 限られた資源で非英語攻撃的言語検出に有望な可能性を示す。
本研究は,攻撃的言語検出と包括的デジタル空間の促進における異文化間伝達学習の重要性を強調した。
関連論文リスト
- The Echoes of Multilinguality: Tracing Cultural Value Shifts during LM Fine-tuning [23.418656688405605]
本研究では, 異なるテスト言語で符号化された文化的価値に言語がどのように影響するかを, 微調整時にどのように修正されるかを検討する。
最後に、トレーニングデータ属性法を用いて、微調整の例やそれらが生み出す言語にパターンを見つける。
論文 参考訳(メタデータ) (2024-05-21T12:55:15Z) - CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts [50.44270798959864]
一部の言語は、他の言語よりも接続性が良く、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。
本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を示す。
論文 参考訳(メタデータ) (2024-04-19T04:02:50Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Cultural Compass: Predicting Transfer Learning Success in Offensive Language Detection with Cultural Features [19.72091739119933]
本研究は,文化的特徴の交わりと伝達学習の有効性について考察する。
これらの結果に基づいて,文化情報のデータセットへの統合を提唱する。
我々の研究は、より包括的で文化的に敏感な言語技術の探求において、一歩前進していることを示している。
論文 参考訳(メタデータ) (2023-10-10T09:29:38Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Relationship of the language distance to English ability of a country [0.0]
本稿では,言語間の意味的相違を測る新しい手法を提案する。
提案するセマンティック言語距離の有効性を実証的に検討する。
実験の結果, 言語距離は, 国の平均英語能力に負の影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2022-11-15T02:40:00Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。