論文の概要: A Study of Automatic Metrics for the Evaluation of Natural Language
Explanations
- arxiv url: http://arxiv.org/abs/2103.08545v1
- Date: Mon, 15 Mar 2021 17:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:31:10.621027
- Title: A Study of Automatic Metrics for the Evaluation of Natural Language
Explanations
- Title(参考訳): 自然言語解説評価のための自動測定法の検討
- Authors: Miruna Clinciu, Arash Eshghi, and Helen Hastie
- Abstract要約: このような説明の生成と自然言語生成(NLG)の評価の多くの研究分野との平行性を検討する。
本稿では,ベイズネットワークのためのnl説明のクラウドソースコーパスであるexban corpusを提案する。
BERTScore や BLEURT などの埋め込みベースの自動 NLG 評価手法は、BLEU や ROUGE などのワードオーバーラップ指標と比較して、人間の評価と高い相関性を有することが分かりました。
- 参考スコア(独自算出の注目度): 1.7205106391379024
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As transparency becomes key for robotics and AI, it will be necessary to
evaluate the methods through which transparency is provided, including
automatically generated natural language (NL) explanations. Here, we explore
parallels between the generation of such explanations and the much-studied
field of evaluation of Natural Language Generation (NLG). Specifically, we
investigate which of the NLG evaluation measures map well to explanations. We
present the ExBAN corpus: a crowd-sourced corpus of NL explanations for
Bayesian Networks. We run correlations comparing human subjective ratings with
NLG automatic measures. We find that embedding-based automatic NLG evaluation
methods, such as BERTScore and BLEURT, have a higher correlation with human
ratings, compared to word-overlap metrics, such as BLEU and ROUGE. This work
has implications for Explainable AI and transparent robotic and autonomous
systems.
- Abstract(参考訳): ロボット工学やAIにとって透明性が鍵となるため、自動生成された自然言語(NL)の説明を含む透明性を提供する方法を評価する必要がある。
本稿では,このような説明の生成と,自然言語生成(NLG)の評価分野との類似性について検討する。
具体的には,NLG評価尺度のどれが説明によく対応しているかを検討する。
本稿では,ベイズネットワークのためのnl説明のクラウドソースコーパスであるexban corpusを提案する。
人間の主観的評価とNLG自動測定とを相関関係で比較した。
BERTScore や BLEURT などの埋め込みベースの自動 NLG 評価手法は、BLEU や ROUGE などのワードオーバーラップ指標と比較して、人間の評価と高い相関性を有することが分かりました。
この研究は、説明可能なAIと透明なロボットと自律システムに影響を及ぼす。
関連論文リスト
- Comparing zero-shot self-explanations with human rationales in multilingual text classification [5.32539007352208]
命令調整 LLM は計算や複雑な XAI 法の適用を必要としない自己説明を生成する。
入力論理の形で自己説明を評価することによって、この能力が良い説明をもたらすかどうかを解析する。
以上の結果から,自己説明はLRPよりも人間のアノテーションと密接に一致し,忠実度は同等であることがわかった。
論文 参考訳(メタデータ) (2024-10-04T10:14:12Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Situated Natural Language Explanations [54.083715161895036]
自然言語の説明(NLE)は、人間に意思決定を説明する最もアクセスしやすいツールである。
既存のNLE研究の視点は、観客を考慮に入れない。
Situated NLEは視点を提供し、説明の生成と評価に関するさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-27T14:14:28Z) - NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist [20.448405494617397]
Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
論文 参考訳(メタデータ) (2023-05-15T11:51:55Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z) - Automating Text Naturalness Evaluation of NLG Systems [0.0]
本稿では,テキストの自然性評価を自動化する試みについて述べる。
テキストサンプルのスコア付けやラベル付けに人間の参加者に頼る代わりに,プロセスの自動化を提案する。
テキストの確率分数を分析し、生成的および識別的モデルのサイズの影響を観察する。
論文 参考訳(メタデータ) (2020-06-23T18:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。