論文の概要: Evaluating GPT-3 Generated Explanations for Hateful Content Moderation
- arxiv url: http://arxiv.org/abs/2305.17680v2
- Date: Fri, 16 Jun 2023 07:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 17:05:46.260587
- Title: Evaluating GPT-3 Generated Explanations for Hateful Content Moderation
- Title(参考訳): コンテンツモデレーションのためのGPT-3生成説明の評価
- Authors: Han Wang, Ming Shan Hee, Md Rabiul Awal, Kenny Tsu Wei Choo, Roy
Ka-Wei Lee
- Abstract要約: ヘイトフルコンテンツと非ヘイトフルコンテンツの両方に関する説明を生成するために、GPT-3を使用します。
生成した説明を評価するために,2400人の独特な回答者を対象に調査を行った。
以上の結果から, GPTによる説明は言語流布度, 情報伝達度, 説得力, 論理音性において高い品質と評価された。
- 参考スコア(独自算出の注目度): 8.421422574111023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has focused on using large language models (LLMs) to generate
explanations for hate speech through fine-tuning or prompting. Despite the
growing interest in this area, these generated explanations' effectiveness and
potential limitations remain poorly understood. A key concern is that these
explanations, generated by LLMs, may lead to erroneous judgments about the
nature of flagged content by both users and content moderators. For instance,
an LLM-generated explanation might inaccurately convince a content moderator
that a benign piece of content is hateful. In light of this, we propose an
analytical framework for examining hate speech explanations and conducted an
extensive survey on evaluating such explanations. Specifically, we prompted
GPT-3 to generate explanations for both hateful and non-hateful content, and a
survey was conducted with 2,400 unique respondents to evaluate the generated
explanations. Our findings reveal that (1) human evaluators rated the
GPT-generated explanations as high quality in terms of linguistic fluency,
informativeness, persuasiveness, and logical soundness, (2) the persuasive
nature of these explanations, however, varied depending on the prompting
strategy employed, and (3) this persuasiveness may result in incorrect
judgments about the hatefulness of the content. Our study underscores the need
for caution in applying LLM-generated explanations for content moderation. Code
and results are available at https://github.com/Social-AI-Studio/GPT3-HateEval.
- Abstract(参考訳): 最近の研究は、大規模言語モデル(LLM)を使用して、微調整やプロンプトを通じてヘイトスピーチの説明を生成することに焦点を当てている。
この領域への関心が高まりつつあるにもかかわらず、これらの発生した説明の有効性と潜在的な限界は未だ理解されていない。
LLMによって生成されたこれらの説明は、ユーザとコンテンツモデレーターの両方がフラグ付きコンテンツの性質について誤った判断を下す可能性がある。
例えば、LCMが生成した説明は、コンテンツモデレーターが良質なコンテンツが憎悪であることを不正確に納得させるかもしれない。
これを踏まえて,ヘイトスピーチの説明を解析するための枠組みを提案し,その説明を評価するための広範囲な調査を行った。
具体的には、GPT-3にヘイトフルコンテンツと非ヘイトフルコンテンツの両方を説明するよう促し、2,400人の独特な回答者を対象に調査を行った。
その結果,(1) 人間の評価者は, GPT による説明を, 言語流布度, 情報伝達性, 説得性, 論理音性の観点から高い品質と評価し, それらの説明の説得性は, 実施する促進戦略によって異なること, (3) 内容の嫌悪性について誤った判断を下す可能性が示唆された。
本研究は,コンテンツモデレーションにllm生成説明を適用する際に注意が必要であることを強調する。
コードと結果はhttps://github.com/Social-AI-Studio/GPT3-HateEvalで公開されている。
関連論文リスト
- Exploring the Effect of Explanation Content and Format on User Comprehension and Trust [11.433655064494896]
がんリスクを評価するための回帰ツールの説明に焦点をあてる。
本稿では,説明内容と形式がユーザ中心の理解と信頼の指標に与える影響について検討する。
論文 参考訳(メタデータ) (2024-08-30T16:36:53Z) - Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。
以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。
このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文 参考訳(メタデータ) (2024-07-19T17:41:08Z) - Scenarios and Approaches for Situated Natural Language Explanations [18.022428746019582]
ベンチマークデータセットである条件ベース説明を収集します。
このデータセットには100の説明書が含まれている。
オーディエンスと組み合わせたエクスラナンダム(explanandum paired with a audience)"の各状況について、人間による説明を含める。
本稿では,ルールベースのプロンプト,メタプロンプト,コンテキスト内学習プロンプトの3つのカテゴリについて検討する。
論文 参考訳(メタデータ) (2024-06-07T15:56:32Z) - DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection [50.805599761583444]
大規模な言語モデルは、事実性や幻覚の難しさによって制限され、ニュース記事の正確さを判断するために、棚外で直接使用される。
我々は,LLMをパイプラインの一部として組み込む誤情報検出の3つの重要な段階を同定するDellを提案する。
論文 参考訳(メタデータ) (2024-02-16T03:24:56Z) - Complementary Explanations for Effective In-Context Learning [77.83124315634386]
大規模言語モデル (LLM) は、説明のインプロンプトから学習する際、顕著な能力を示した。
この研究は、文脈内学習に説明が使用されるメカニズムをよりよく理解することを目的としている。
論文 参考訳(メタデータ) (2022-11-25T04:40:47Z) - Are Hard Examples also Harder to Explain? A Study with Human and
Model-Generated Explanations [82.12092864529605]
説明可能性とサンプル硬度の関係について検討する。
我々は人による説明と GPT-3 による説明との比較を行った。
また、文脈内例の難易度が GPT-3 の説明の質に影響を及ぼすことも判明した。
論文 参考訳(メタデータ) (2022-11-14T16:46:14Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Human Interpretation of Saliency-based Explanation Over Text [65.29015910991261]
テキストデータ上でのサリエンシに基づく説明について検討する。
人はしばしば説明を誤って解釈する。
本稿では,過度知覚と過小認識のモデル推定に基づいて,サリエンシを調整する手法を提案する。
論文 参考訳(メタデータ) (2022-01-27T15:20:32Z) - Reframing Human-AI Collaboration for Generating Free-Text Explanations [46.29832336779188]
少数の人間が記述した例を用いて,自由テキストの説明を生成する作業について考察する。
クラウドソースによる説明よりも,GPT-3による説明の方が好まれる。
我々は、GPT-3と教師付きフィルタを組み合わせたパイプラインを作成し、二項受理性判定を介し、ループ内人間を組み込む。
論文 参考訳(メタデータ) (2021-12-16T07:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。