論文の概要: CSEval: Towards Automated, Multi-Dimensional, and Reference-Free Counterspeech Evaluation using Auto-Calibrated LLMs
- arxiv url: http://arxiv.org/abs/2501.17581v2
- Date: Sun, 09 Feb 2025 17:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:28:42.369244
- Title: CSEval: Towards Automated, Multi-Dimensional, and Reference-Free Counterspeech Evaluation using Auto-Calibrated LLMs
- Title(参考訳): CSEval: 自動校正 LLM を用いた自動・多次元・参照フリーカウンター音声評価を目指して
- Authors: Amey Hengle, Aswini Kumar, Anil Bandhakavi, Tanmoy Chakraborty,
- Abstract要約: CSEvalは、4次元にわたる対音声品質を評価するための新しいデータセットとフレームワークである。
本稿では,自動校正チェーンオブ思考を用いた自動校正COT(Auto-CSEval for Counterspeech Evaluation, 自動CSEval)を提案する。
実験の結果、Auto-CSEvalは、ROUGE、METEOR、BertScoreといった従来の指標よりも、人間の判断に関連があることが判明した。
- 参考スコア(独自算出の注目度): 18.827745815939213
- License:
- Abstract: Counterspeech has emerged as a popular and effective strategy for combating online hate speech, sparking growing research interest in automating its generation using language models. However, the field still lacks standardised evaluation protocols and reliable automated evaluation metrics that align with human judgement. Current automatic evaluation methods, primarily based on similarity metrics, do not effectively capture the complex and independent attributes of counterspeech quality, such as contextual relevance, aggressiveness, or argumentative coherence. This has led to an increased dependency on labor-intensive human evaluations to assess automated counter-speech generation methods. To address these challenges, we introduce CSEval, a novel dataset and framework for evaluating counterspeech quality across four dimensions: contextual-relevance, aggressiveness, argument-coherence, and suitableness. Furthermore, we propose Auto-Calibrated COT for Counterspeech Evaluation (Auto-CSEval), a prompt-based method with auto-calibrated chain-of-thoughts (CoT) for scoring counterspeech using large language models. Our experiments show that Auto-CSEval outperforms traditional metrics like ROUGE, METEOR, and BertScore in correlating with human judgement, indicating a significant improvement in automated counterspeech evaluation.
- Abstract(参考訳): Counterspeechは、オンラインヘイトスピーチと戦うための人気があり効果的な戦略として登場し、言語モデルを使ってその生成を自動化する研究の関心が高まっている。
しかし、この分野には、人間の判断に合致する、標準化された評価プロトコルと信頼性の高い自動評価指標がまだ欠けている。
現在の自動評価手法は、主に類似度指標に基づいており、文脈的関連性、攻撃性、議論的コヒーレンスといった反音声品質の複雑で独立した属性を効果的に捉えていない。
これにより、労働集約的な人的評価への依存が増し、自動対音声生成法が評価されるようになった。
これらの課題に対処するために、CSEvalは、文脈関連性、攻撃性、議論コヒーレンス、適切性という4つの次元にまたがる反音声品質を評価するための、新しいデータセットとフレームワークである。
さらに,大規模言語モデルを用いた自動校正チェーン・オブ・シント (CoT) を用いた自動校正COT for Counterspeech Evaluation (Auto-CSEval) を提案する。
実験の結果, ROUGE, METEOR, BertScoreなどの従来の指標よりも, 人間の判断と相関し, 対音声自動評価の大幅な改善が示唆された。
関連論文リスト
- How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Contextualized Topic Coherence Metrics [6.630482733703617]
CTC(Contextualized Topic Coherence)と呼ばれる,標準的な話題評価にインスパイアされた手法を提案する。
我々は,6つのトピックモデルにおいて,他の5つの指標と比較してCTCを評価し,自動トピックコヒーレンス法よりも優れた結果を得た。
論文 参考訳(メタデータ) (2023-05-23T23:53:29Z) - SpeechLMScore: Evaluating speech generation using speech language model [43.20067175503602]
本稿では,音声認識モデルを用いて生成した音声を評価するための教師なしメトリックであるSpeechLMScoreを提案する。
人間のアノテーションは必要とせず、高度にスケーラブルなフレームワークです。
評価結果は,提案手法が音声生成タスクにおける評価スコアと有望な相関を示すことを示す。
論文 参考訳(メタデータ) (2022-12-08T21:00:15Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation [69.03658685761538]
オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
本稿では,自動評価モデルCMADEを提案する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
論文 参考訳(メタデータ) (2020-05-21T15:14:49Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - Designing Precise and Robust Dialogue Response Evaluators [35.137244385158034]
我々は,参照自由評価器を構築し,半教師付きトレーニングと事前訓練言語モデルのパワーを活用することを提案する。
実験結果から,提案した評価器は人的判断と強い相関(>0.6)を達成できることが示された。
論文 参考訳(メタデータ) (2020-04-10T04:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。