論文の概要: Evaluation Discrepancy Discovery: A Sentence Compression Case-study
- arxiv url: http://arxiv.org/abs/2101.09079v1
- Date: Fri, 22 Jan 2021 12:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 00:23:41.940986
- Title: Evaluation Discrepancy Discovery: A Sentence Compression Case-study
- Title(参考訳): 評価不一致発見 : 文圧縮事例研究
- Authors: Yevgeniy Puzikov
- Abstract要約: 測定基準も人的評価もシステム性能に関する結論を引き出すには十分でないことを示す。
我々は、システムが確立されたデータセットをゲームして最先端の結果を得る方法を示す。
- 参考スコア(独自算出の注目度): 0.6430130814523793
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reliable evaluation protocols are of utmost importance for reproducible NLP
research. In this work, we show that sometimes neither metric nor conventional
human evaluation is sufficient to draw conclusions about system performance.
Using sentence compression as an example task, we demonstrate how a system can
game a well-established dataset to achieve state-of-the-art results. In
contrast with the results reported in previous work that showed correlation
between human judgements and metric scores, our manual analysis of
state-of-the-art system outputs demonstrates that high metric scores may only
indicate a better fit to the data, but not better outputs, as perceived by
humans.
- Abstract(参考訳): 信頼性評価プロトコルは再現可能なNLP研究において最も重要である。
本研究では,システム性能に関する結論を導き出すには,測定値も従来の評価値も不十分な場合があることを示す。
文圧縮を例題として, システムが確立したデータセットをゲームして最先端の結果を得る方法を示す。
人間の判断と測定値の相関関係を示す以前の研究結果とは対照的に、我々の手動による最先端のシステム出力の分析では、高い測定値がデータに適合するだけでなく、人間の認識した結果よりも良い結果を示すことが示されている。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Improving Faithfulness of Abstractive Summarization by Controlling
Confounding Effect of Irrelevant Sentences [38.919090721583075]
事実整合性は、共同創設者として機能する入力テキストの無関係な部分によって引き起こされる可能性があることを示す。
そこで我々は,人間が記述した関連文を利用できる場合に利用することにより,そのような欠点を抑えるためのシンプルなマルチタスクモデルを設計する。
提案手法は,AnswerSumm citepfabbri 2021answersummデータセットの強いベースラインに対して,忠実度スコアを20%向上させる。
論文 参考訳(メタデータ) (2022-12-19T18:51:06Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Evaluation of Unsupervised Entity and Event Salience Estimation [17.74208462902158]
Salience Estimationは、文書における用語の重要性を予測することを目的としている。
過去の研究は通常、評価のための疑似根拠の真実を生成します。
本研究では,軽量で実用的な実体とイベントサリエンス評価プロトコルを提案する。
論文 参考訳(メタデータ) (2021-04-14T15:23:08Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Critical analysis on the reproducibility of visual quality assessment
using deep features [6.746400031322727]
教師付き機械学習モデルのトレーニングに使用されるデータは、一般的に独立したトレーニング、検証、テストセットに分割される。
本稿では,非参照画像と映像品質評価文献に複雑なデータ漏洩事件が発生したことを示す。
論文 参考訳(メタデータ) (2020-09-10T09:51:18Z) - Discourse-Aware Unsupervised Summarization of Long Scientific Documents [13.405733237855404]
長い学術文書の抽出要約のための教師なしグラフに基づくランキングモデルを提案する。
提案手法は,情報源文書の2段階階層グラフ表現を仮定し,非対称な位置推定手法を用いて文の重要度を決定する。
PubMed と arXiv のデータセットの結果から,我々の手法は,自動測定と人的評価において,幅広いマージンで強い教師なしベースラインを上回ります。
論文 参考訳(メタデータ) (2020-05-01T17:31:11Z) - Overly Optimistic Prediction Results on Imbalanced Data: a Case Study of
Flaws and Benefits when Applying Over-sampling [13.463035357173045]
データを相互に排他的なトレーニングとテストセットに分割する前にオーバーサンプリングを適用する。
この結果が,2つの人工データセットを用いて偏りを生じさせ,この欠陥が同定された研究結果を再現することを示す。
論文 参考訳(メタデータ) (2020-01-15T12:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。