論文の概要: Handling and Presenting Harmful Text
- arxiv url: http://arxiv.org/abs/2204.14256v1
- Date: Fri, 29 Apr 2022 17:34:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 15:00:21.692491
- Title: Handling and Presenting Harmful Text
- Title(参考訳): 有害テキストの扱いと提示
- Authors: Leon Derczynski, Hannah Rose Kirk, Abeba Birhane, Bertie Vidgen
- Abstract要約: テキストデータは深刻な危害のリスクを引き起こす可能性がある。
これらの害は、誤情報、ヘイトスピーチ、人種的ステレオタイプという3つの軸に沿って分類することができる。
NLPでは、テキストの害がどのように扱われ、提示され、議論されるべきかという未解決の問題である。
我々は,テキスト害の研究を反映するリソースであるtextscHarmCheck を導入し,実践的なアドバイスを提供する。
- 参考スコア(独自算出の注目度): 10.359716317114815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual data can pose a risk of serious harm. These harms can be categorised
along three axes: (1) the harm type (e.g. misinformation, hate speech or racial
stereotypes) (2) whether it is \textit{elicited} as a feature of the research
design from directly studying harmful content (e.g. training a hate speech
classifier or auditing unfiltered large-scale datasets) versus
\textit{spuriously} invoked from working on unrelated problems (e.g. language
generation or part of speech tagging) but with datasets that nonetheless
contain harmful content, and (3) who it affects, from the humans
(mis)represented in the data to those handling or labelling the data to readers
and reviewers of publications produced from the data. It is an unsolved problem
in NLP as to how textual harms should be handled, presented, and discussed;
but, stopping work on content which poses a risk of harm is untenable.
Accordingly, we provide practical advice and introduce \textsc{HarmCheck}, a
resource for reflecting on research into textual harms. We hope our work
encourages ethical, responsible, and respectful research in the NLP community.
- Abstract(参考訳): テキストデータは深刻な危害をもたらす可能性がある。
These harms can be categorised along three axes: (1) the harm type (e.g. misinformation, hate speech or racial stereotypes) (2) whether it is \textit{elicited} as a feature of the research design from directly studying harmful content (e.g. training a hate speech classifier or auditing unfiltered large-scale datasets) versus \textit{spuriously} invoked from working on unrelated problems (e.g. language generation or part of speech tagging) but with datasets that nonetheless contain harmful content, and (3) who it affects, from the humans (mis)represented in the data to those handling or labelling the data to readers and reviewers of publications produced from the data.
nlpでは、テキストによる害がどのように処理され、提示され、議論されるべきかという未解決の問題であるが、害のリスクをもたらすコンテンツに対する作業を停止することは不可能である。
そこで,本研究では,テキスト障害の研究を反映したリソースであるtextsc{HarmCheck}を紹介する。
我々は,NLPコミュニティにおける倫理的,責任的,敬意的な研究を促進することを願っている。
関連論文リスト
- Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey [7.945893812374361]
本研究の目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。
具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。
最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。
論文 参考訳(メタデータ) (2024-09-26T17:55:22Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - How We Define Harm Impacts Data Annotations: Explaining How Annotators
Distinguish Hateful, Offensive, and Toxic Comments [3.8021618306213094]
研究者が「ハーム」を定義する方法がアノテーションの結果に影響を及ぼすかどうかを考察する。
我々は、調和の定義の特徴と注釈者の個人的特徴が、アノテーションがこれらの用語をどう使うかを説明する。
論文 参考訳(メタデータ) (2023-09-12T19:23:40Z) - Synthetically generated text for supervised text analysis [5.71097144710995]
テキスト生成の概念的概要、研究者が合成テキストを生成するための異なるテクニックをいつ選択すべきかに関するガイダンス、倫理に関する議論、および合成テキストの品質向上のための簡単なテクニックを提供する。
本稿では,ウクライナにおける戦闘を記述した合成ツイートの生成,イベント検出システムの訓練のための特定の政治事象を記述した合成ニュース記事,文レベルポピュリズム分類器の訓練のためのポピュリスト宣言文の多言語コーパスの3つの応用例を用いて,合成テキストの有用性を示す。
論文 参考訳(メタデータ) (2023-03-28T14:55:13Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - Hope Speech Detection on Social Media Platforms [1.2561455657923906]
本稿では,文章をホープ音声,ノンホップ音声,ニュートラル文と識別するための機械学習アプローチについて論じる。
この研究で使用されたデータセットには、英語のYouTubeコメントが含まれている。
論文 参考訳(メタデータ) (2022-11-14T10:58:22Z) - Mitigating Covertly Unsafe Text within Natural Language Systems [55.26364166702625]
制御されていないシステムは、怪我や致命的な結果につながるレコメンデーションを生成する。
本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。
論文 参考訳(メタデータ) (2022-10-17T17:59:49Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - Detecting Inappropriate Messages on Sensitive Topics that Could Harm a
Company's Reputation [64.22895450493729]
カメや釣りの穏やかな議論は、政治や性的マイノリティの議論よりも不適切な有毒な対話を後押しします。
我々は,不適切で有害なメッセージを生み出す可能性のある,センシティブなトピックのセットを定義し,データセットの収集とラベル付けの方法論を記述した。
論文 参考訳(メタデータ) (2021-03-09T10:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。