Fugu-MT 論文翻訳(概要): A Multi-Aspect Framework for Counter Narrative Evaluation using Large Language Models

論文の概要: A Multi-Aspect Framework for Counter Narrative Evaluation using Large Language Models

arxiv url: http://arxiv.org/abs/2402.11676v2
Date: Fri, 29 Mar 2024 15:01:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 18:02:50.007806
Title: A Multi-Aspect Framework for Counter Narrative Evaluation using Large Language Models
Title（参考訳）: 大規模言語モデルを用いた対話的評価のための多視点フレームワーク
Authors: Jaylen Jones, Lingbo Mo, Eric Fosler-Lussier, Huan Sun,
Abstract要約: カウンター物語は、憎しみに満ちた主張を否定し、遭遇をエスカレートするように設計されたヘイトスピーチの文脈に反応する。従来の対物的評価のための自動メトリクスは、人間の判断と一致していない。そこで本稿では,LLMが生成した対物的候補に対して,スコアとフィードバックを提供するための新たな評価フレームワークを提案する。
参考スコア（独自算出の注目度）: 16.878541623617473
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Counter narratives - informed responses to hate speech contexts designed to refute hateful claims and de-escalate encounters - have emerged as an effective hate speech intervention strategy. While previous work has proposed automatic counter narrative generation methods to aid manual interventions, the evaluation of these approaches remains underdeveloped. Previous automatic metrics for counter narrative evaluation lack alignment with human judgment as they rely on superficial reference comparisons instead of incorporating key aspects of counter narrative quality as evaluation criteria. To address prior evaluation limitations, we propose a novel evaluation framework prompting LLMs to provide scores and feedback for generated counter narrative candidates using 5 defined aspects derived from guidelines from counter narrative specialized NGOs. We found that LLM evaluators achieve strong alignment to human-annotated scores and feedback and outperform alternative metrics, indicating their potential as multi-aspect, reference-free and interpretable evaluators for counter narrative evaluation.
Abstract（参考訳）: ヘイトスピーチの介入戦略として、ヘイトフルな主張を否定し、遭遇を非エスカレートするために設計されたヘイトスピーチの文脈に対するインフォームド・レスポンス(英語版)が登場した。従来,手作業の介入を支援するための自動対言生成手法が提案されてきたが,これらの手法の評価はいまだに未開発である。従来の対物的評価のための自動指標は、対物的評価基準として、対物的品質の重要な側面を取り入れるのではなく、表面的基準による比較に頼っているため、人間の判断と一致しない。先行評価の限界に対処するため,本研究では,対人物語専門NGOのガイドラインから派生した5つの定義された側面を用いて,LLMが生成した対人物語候補に対してスコアとフィードバックを提供するための新しい評価フレームワークを提案する。 LLM評価器は人手による注釈付きスコアやフィードバックに強く対応し,多視点・参照なし・解釈可能な評価器としての可能性を示した。

関連論文リスト

FACE: A Fine-grained Reference Free Evaluator for Conversational Recommender Systems [4.028503203417233]
本研究は,微細なアスペクトベースの会話評価手法であるFACEを提案する。これは、レコメンデーション会話の多様なターンレベルおよび対話レベルの品質に対する評価スコアを提供する。 FACEは参照なしであり、人間の判断と強い相関を示す。
論文参考訳（メタデータ） (2025-05-30T23:54:13Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Measuring the Robustness of Reference-Free Dialogue Evaluation Systems [12.332146893333952]
敵攻撃の4つのカテゴリに対して,参照自由対話メトリクスの堅牢性を評価するためのベンチマークを示す。 DialogRPT、UniEval、PromptEvalなどのメトリクスを、地上および地下のデータセットで分析する。
論文参考訳（メタデータ） (2025-01-12T06:41:52Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation [2.1944577276732726]
本研究では,モデレーションコンテキストに適応し,適度なユーザ向けにパーソナライズされたコーディネート音声を生成するための戦略を提案し,評価する。以上の結果から, 文脈的反音声は, 精度と説得力において, 最先端の一般音声よりも有意に優れることが示された。コンテンツモデレーションにおける、文脈化されたAI生成の逆音声の有効性と、人間とアルゴリズムによる評価の相違は、人間とAIの協調の増大の重要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-12-10T09:29:52Z)
RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。 RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文参考訳（メタデータ） (2024-10-07T16:50:47Z)
A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文参考訳（メタデータ） (2024-06-21T15:11:33Z)
DEBATE: Devil's Advocate-Based Assessment and Text Evaluation [6.2689399557794525]
マルチエージェントスコアリングシステムに基づくNLG評価フレームワークであるDEBATEを提案する。フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示される。エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-05-16T09:41:12Z)
Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文参考訳（メタデータ） (2024-04-19T16:45:50Z)
One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [30.674896082482476]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文参考訳（メタデータ） (2024-02-18T19:13:52Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文参考訳（メタデータ） (2023-05-24T02:52:48Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)
SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文参考訳（メタデータ） (2022-05-19T16:01:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。