論文の概要: Culture Matters in Toxic Language Detection in Persian
- arxiv url: http://arxiv.org/abs/2506.03458v1
- Date: Tue, 03 Jun 2025 23:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.090851
- Title: Culture Matters in Toxic Language Detection in Persian
- Title(参考訳): ペルシャ語における有害言語検出における文化
- Authors: Zahra Bokaei, Walid Magdy, Bonnie Webber,
- Abstract要約: ペルシアでは有毒な言語検出が過小評価されている。
本稿では、微調整、データ豊か化、ゼロショット、少数ショット学習など、このタスクのさまざまな方法の比較を行う。
ペルシャ語と文化的に類似した国の言語は、移動学習においてより良い結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 13.215940567074023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxic language detection is crucial for creating safer online environments and limiting the spread of harmful content. While toxic language detection has been under-explored in Persian, the current work compares different methods for this task, including fine-tuning, data enrichment, zero-shot and few-shot learning, and cross-lingual transfer learning. What is especially compelling is the impact of cultural context on transfer learning for this task: We show that the language of a country with cultural similarities to Persian yields better results in transfer learning. Conversely, the improvement is lower when the language comes from a culturally distinct country. Warning: This paper contains examples of toxic language that may disturb some readers. These examples are included for the purpose of research on toxic detection.
- Abstract(参考訳): 有害な言語検出は、より安全なオンライン環境を作成し、有害なコンテンツの拡散を制限するために不可欠である。
ペルシアでは有害な言語検出が過小評価されているが、現在の研究は、微調整、データ豊か化、ゼロショットと少数ショットの学習、言語間移動学習など、このタスクのさまざまな方法を比較している。
特に魅力的なのは、このタスクにおける文化的な文脈がトランスファーラーニングに与える影響である: 文化的なペルシャ語に類似した国の言語がトランスファーラーニングにより良い結果をもたらすことを示す。
逆に、言語が文化的に異なる国から来た場合、改善は低い。
警告:本論文は、一部の読者を混乱させる可能性のある有害な言語の例を含む。
これらの例は、毒性検出の研究のために含まれている。
関連論文リスト
- JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models' Detection of Human Self-Destructive Behavior Content in Jirai Community [9.492476871323763]
本稿では,大規模言語モデルによる自己破壊的コンテンツ検出の有効性を評価するための,最初のバイリンガルベンチマークである JiraiBench を紹介する。
我々は,薬物過剰摂取,摂食障害,自傷など多種の自己破壊行動を含む,全国的な地雷オンラインサブカルチャーに注目した。
本データセットは,3つの行動カテゴリーに沿って,多次元アノテーションを用いた10,419の中国語投稿と5000の日本語投稿からなる。
論文 参考訳(メタデータ) (2025-03-27T16:48:58Z) - Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation [6.781972039785424]
近年のジェネレーティブ・大型言語モデル(LLM)は英語以外の言語では顕著な性能を示した。
これらの言語で刺激されると、より有害な社会的偏見と毒性のレベルを表現する傾向がある。
異なる微調整法がモデルのバイアスや毒性に与える影響について検討するが、その効果は、流動的で多様なテキストを生成する能力にも及んでいる。
論文 参考訳(メタデータ) (2024-12-18T17:05:08Z) - CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts [50.44270798959864]
一部の言語は、他の言語よりも接続性が良く、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。
本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を示す。
論文 参考訳(メタデータ) (2024-04-19T04:02:50Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Cross-Cultural Transfer Learning for Chinese Offensive Language
Detection [9.341003339029221]
本研究では,異なる文化背景からの攻撃的言語検出データを用いた転帰学習の効果を検討することを目的とする。
また, 言語モデルの伝達性に悪影響を及ぼす要因として, 文化特有のバイアスがあることがわかった。
しかし,数ショットの学習シナリオでは,限られた資源を用いた非英語攻撃型言語検出が期待できる可能性を示した。
論文 参考訳(メタデータ) (2023-03-31T09:50:07Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。