論文の概要: Shades of BLEU, Flavours of Success: The Case of MultiWOZ
- arxiv url: http://arxiv.org/abs/2106.05555v1
- Date: Thu, 10 Jun 2021 07:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 19:03:21.617471
- Title: Shades of BLEU, Flavours of Success: The Case of MultiWOZ
- Title(参考訳): BLEU, Flavours of Success: The Case of MultiWOZ
- Authors: Tom\'a\v{s} Nekvinda and Ond\v{r}ej Du\v{s}ek
- Abstract要約: 本研究では、このデータセットで使用される3つのコーパスベースのメトリクスについて、データ前処理とレポートの不整合を同定する。
我々は,MultiWOZベンチマークのいくつかの問題として,不満足な事前処理,不十分あるいは不明確な評価指標,厳密なデータベースなどを挙げている。
将来のシステムの比較を容易にするために,スタンドアローンで標準化された評価スクリプトをリリースする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The MultiWOZ dataset (Budzianowski et al.,2018) is frequently used for
benchmarking context-to-response abilities of task-oriented dialogue systems.
In this work, we identify inconsistencies in data preprocessing and reporting
of three corpus-based metrics used on this dataset, i.e., BLEU score and Inform
& Success rates. We point out a few problems of the MultiWOZ benchmark such as
unsatisfactory preprocessing, insufficient or under-specified evaluation
metrics, or rigid database. We re-evaluate 7 end-to-end and 6 policy
optimization models in as-fair-as-possible setups, and we show that their
reported scores cannot be directly compared. To facilitate comparison of future
systems, we release our stand-alone standardized evaluation scripts. We also
give basic recommendations for corpus-based benchmarking in future works.
- Abstract(参考訳): マルチウォズデータセット(budzianowski et al., 2018)はタスク指向対話システムのコンテキスト対応答能力のベンチマークによく使われている。
本研究では,このデータセットで使用される3つのコーパスベースメトリクス,すなわちbleuスコアとinform & success rateのデータの事前処理とレポートにおける不整合を特定する。
我々は,マルチウォズベンチマークの問題点として,不十分な前処理,不十分な評価指標,厳格なデータベースなどを挙げた。
7つのエンドツーエンドと6つのポリシー最適化モデルを再評価し,それらのスコアを直接比較できないことを示した。
将来のシステムの比較を容易にするために、我々はスタンドアロンの標準評価スクリプトをリリースする。
また、今後の作業においてコーパスベースのベンチマークに関する基本的な推奨事項も提示する。
関連論文リスト
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - SoK: Comparing Different Membership Inference Attacks with a
Comprehensive Benchmark [34.33992286137998]
メンバーシップ推論(MI)攻撃は、特定のデータサンプルがターゲットモデルをトレーニングするために使用されているかどうかを判断することで、ユーザのプライバシを脅かす。
異なるMI攻撃」手法には深刻な制限があることがますます認識されている。
我々は、評価指標だけでなく、評価シナリオも含むMIBenchと呼ばれる異なるMI攻撃の比較ベンチマークを開発する。
論文 参考訳(メタデータ) (2023-07-12T12:23:47Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Personalized Benchmarking with the Ludwig Benchmarking Toolkit [12.347185532330919]
Ludwig Benchmarking Toolkit (LBT)は、エンドツーエンドのベンチマーク研究を行うためのパーソナライズされたベンチマークツールキットである。
LBTは、トレーニングの制御と評価のカスタマイズのためのインターフェース、境界変数の排除のための標準化されたトレーニングフレームワーク、多目的評価のサポートを提供する。
7つのモデルと9つのデータセットにまたがるテキスト分類のための大規模比較分析を用いて、LBTを用いてパーソナライズされたベンチマーク研究を作成する方法を示す。
論文 参考訳(メタデータ) (2021-11-08T03:53:38Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文 参考訳(メタデータ) (2021-04-05T20:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。