論文の概要: Think Like a Person Before Responding: A Multi-Faceted Evaluation of Persona-Guided LLMs for Countering Hate
- arxiv url: http://arxiv.org/abs/2506.04043v1
- Date: Wed, 04 Jun 2025 15:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.404964
- Title: Think Like a Person Before Responding: A Multi-Faceted Evaluation of Persona-Guided LLMs for Countering Hate
- Title(参考訳): 反応前の人のように考える:Hate対策のためのペルソナ誘導LDMの多面的評価
- Authors: Mikel K. Ngueajio, Flor Miriam Plaza-del-Arco, Yi-Ling Chung, Danda B. Rawat, Amanda Cercas Curry,
- Abstract要約: GPT-4o-Mini、CohereのCommandR-7B、MetaのLLaMA 3.1-70Bを用いて、MT-ConanおよびHatEvalデータセット上の3つのプロンプト戦略を評価する。
LLMによるCNは,大学レベルのリテラシーを持つ人には冗長であり,アクセシビリティが制限されていることが判明した。
感情的に導かれるプロンプトは、より共感的で読みやすい反応をもたらすが、安全と効果に関する懸念は残る。
- 参考スコア(独自算出の注目度): 13.167955700963399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated counter-narratives (CN) offer a promising strategy for mitigating online hate speech, yet concerns about their affective tone, accessibility, and ethical risks remain. We propose a framework for evaluating Large Language Model (LLM)-generated CNs across four dimensions: persona framing, verbosity and readability, affective tone, and ethical robustness. Using GPT-4o-Mini, Cohere's CommandR-7B, and Meta's LLaMA 3.1-70B, we assess three prompting strategies on the MT-Conan and HatEval datasets. Our findings reveal that LLM-generated CNs are often verbose and adapted for people with college-level literacy, limiting their accessibility. While emotionally guided prompts yield more empathetic and readable responses, there remain concerns surrounding safety and effectiveness.
- Abstract(参考訳): 自動反ナラティブ(CN)は、オンラインヘイトスピーチを緩和するための有望な戦略を提供するが、その感情的なトーン、アクセシビリティ、倫理的リスクは残る。
本研究では,Large Language Model (LLM) の生成するCNを,4次元にわたって評価する枠組みを提案する。
GPT-4o-Mini、CohereのCommandR-7B、MetaのLLaMA 3.1-70Bを用いて、MT-ConanおよびHatEvalデータセット上の3つのプロンプト戦略を評価する。
LLMによるCNは,大学レベルのリテラシーを持つ人には冗長であり,アクセシビリティが制限されていることが判明した。
感情的に導かれるプロンプトは、より共感的で読みやすい反応をもたらすが、安全と効果に関する懸念は残る。
関連論文リスト
- SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues [9.762621950740995]
悪意のある攻撃者は、大きな言語モデル(LLM)をマルチターン対話で利用することができる。
マルチTurnダイアログ(STREAM)のためのSafeTy Reasoning Elicitation Alignmentという新しい防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-31T18:38:23Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Personalisation within bounds: A risk taxonomy and policy framework for
the alignment of large language models with personalised feedback [11.895749982167375]
大規模言語モデル(LLM)は、幅広いタスクのコンテンツを生成するために使用され、今後数年でより多くの聴衆にリーチするように設定されている。
これにより、モデルが人間の好みと一致し、安全でない、不正確な、有害なアウトプットを発生させないことを保証する必要性が強まる。
マイクロレベルの嗜好学習プロセスを通じてLLMをパーソナライズすると、各ユーザとの整合性が良くなるモデルが得られる。
論文 参考訳(メタデータ) (2023-03-09T17:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。