論文の概要: The State of Profanity Obfuscation in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2210.07595v1
- Date: Fri, 14 Oct 2022 07:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:35:25.882436
- Title: The State of Profanity Obfuscation in Natural Language Processing
- Title(参考訳): 自然言語処理における難読化の現状
- Authors: Debora Nozza, Dirk Hovy
- Abstract要約: 難解な発言は、特に非ネイティブな話者にとって、コンテンツの評価を困難にしている。
代名詞難読化プロセスを標準化するPythonモジュールを備えたPrOfという多言語コミュニティリソースを提案する。
- 参考スコア(独自算出の注目度): 29.95449849179384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Work on hate speech has made the consideration of rude and harmful examples
in scientific publications inevitable. This raises various problems, such as
whether or not to obscure profanities. While science must accurately disclose
what it does, the unwarranted spread of hate speech is harmful to readers, and
increases its internet frequency. While maintaining publications' professional
appearance, obfuscating profanities makes it challenging to evaluate the
content, especially for non-native speakers. Surveying 150 ACL papers, we
discovered that obfuscation is usually employed for English but not other
languages, and even so quite uneven. We discuss the problems with obfuscation
and suggest a multilingual community resource called PrOf that has a Python
module to standardize profanity obfuscation processes. We believe PrOf can help
scientific publication policies to make hate speech work accessible and
comparable, irrespective of language.
- Abstract(参考訳): ヘイトスピーチの研究は、科学出版物における無礼で有害な例を考慮に入れた。
これは、不明瞭な敬称の有無など、様々な問題を引き起こす。
科学はそれを正確に開示する必要があるが、ヘイトスピーチの無秩序な拡散は読者にとって有害であり、インターネットの頻度を増大させる。
出版物のプロフェッショナルな外観を維持しながら、難解な誇大広告は、特に非ネイティブな話者にとって、コンテンツの評価を困難にしている。
150のACL論文を調査したところ、難読化は通常英語に使われているが、他の言語には使われていないことがわかりました。
難読化の問題について議論し, profanity obfuscation プロセスを標準化する python モジュールを備えた prof と呼ばれる多言語コミュニティリソースを提案する。
PrOfは、ヘイトスピーチを言語によらずアクセスしやすくする科学出版政策を支援することができると考えている。
関連論文リスト
- NLP Systems That Can't Tell Use from Mention Censor Counterspeech, but Teaching the Distinction Helps [43.40965978436158]
問題のある内容に反論する対訳は、しばしば有害な言語に言及するが、それ自体は有害ではない。
最近の言語モデルでさえ、言及と使用の区別に失敗していることを示す。
この失敗は、誤報とヘイトスピーチ検出という2つの重要な下流タスクに伝播する。
論文 参考訳(メタデータ) (2024-04-02T05:36:41Z) - Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - An Investigation of Large Language Models for Real-World Hate Speech
Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。
近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。
本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文 参考訳(メタデータ) (2024-01-07T00:39:33Z) - Automatic Translation of Hate Speech to Non-hate Speech in Social Media
Texts [0.0]
本稿では,ヘイトスピーチを非ヘイトスピーチテキストに翻訳し,その意味を保ちながら新たなタスクを提案する。
さらなる研究の出発点として、データセットといくつかのベースラインを提供します。
本研究の目的は、オンラインコミュニティにおけるヘイトスピーチの拡散を減らすための、より効果的な方法の開発に寄与することである。
論文 参考訳(メタデータ) (2023-06-02T04:03:14Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Assessing the impact of contextual information in hate speech detection [0.48369513656026514]
我々は,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。
このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-02T09:04:47Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。