論文の概要: A Multi-Aspect Framework for Counter Narrative Evaluation using Large Language Models
- arxiv url: http://arxiv.org/abs/2402.11676v2
- Date: Fri, 29 Mar 2024 15:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 18:02:50.007806
- Title: A Multi-Aspect Framework for Counter Narrative Evaluation using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた対話的評価のための多視点フレームワーク
- Authors: Jaylen Jones, Lingbo Mo, Eric Fosler-Lussier, Huan Sun,
- Abstract要約: カウンター物語は、憎しみに満ちた主張を否定し、遭遇をエスカレートするように設計されたヘイトスピーチの文脈に反応する。
従来の対物的評価のための自動メトリクスは、人間の判断と一致していない。
そこで本稿では,LLMが生成した対物的候補に対して,スコアとフィードバックを提供するための新たな評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.878541623617473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counter narratives - informed responses to hate speech contexts designed to refute hateful claims and de-escalate encounters - have emerged as an effective hate speech intervention strategy. While previous work has proposed automatic counter narrative generation methods to aid manual interventions, the evaluation of these approaches remains underdeveloped. Previous automatic metrics for counter narrative evaluation lack alignment with human judgment as they rely on superficial reference comparisons instead of incorporating key aspects of counter narrative quality as evaluation criteria. To address prior evaluation limitations, we propose a novel evaluation framework prompting LLMs to provide scores and feedback for generated counter narrative candidates using 5 defined aspects derived from guidelines from counter narrative specialized NGOs. We found that LLM evaluators achieve strong alignment to human-annotated scores and feedback and outperform alternative metrics, indicating their potential as multi-aspect, reference-free and interpretable evaluators for counter narrative evaluation.
- Abstract(参考訳): ヘイトスピーチの介入戦略として、ヘイトフルな主張を否定し、遭遇を非エスカレートするために設計されたヘイトスピーチの文脈に対するインフォームド・レスポンス(英語版)が登場した。
従来,手作業の介入を支援するための自動対言生成手法が提案されてきたが,これらの手法の評価はいまだに未開発である。
従来の対物的評価のための自動指標は、対物的評価基準として、対物的品質の重要な側面を取り入れるのではなく、表面的基準による比較に頼っているため、人間の判断と一致しない。
先行評価の限界に対処するため,本研究では,対人物語専門NGOのガイドラインから派生した5つの定義された側面を用いて,LLMが生成した対人物語候補に対してスコアとフィードバックを提供するための新しい評価フレームワークを提案する。
LLM評価器は人手による注釈付きスコアやフィードバックに強く対応し,多視点・参照なし・解釈可能な評価器としての可能性を示した。
関連論文リスト
- RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文 参考訳(メタデータ) (2024-10-07T16:50:47Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - DEBATE: Devil's Advocate-Based Assessment and Text Evaluation [6.2689399557794525]
マルチエージェントスコアリングシステムに基づくNLG評価フレームワークであるDEBATEを提案する。
フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示される。
エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-16T09:41:12Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [30.674896082482476]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。
我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文 参考訳(メタデータ) (2024-02-18T19:13:52Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。