論文の概要: Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics
- arxiv url: http://arxiv.org/abs/2203.15858v1
- Date: Tue, 29 Mar 2022 18:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 13:52:19.843411
- Title: Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics
- Title(参考訳): 自動機械翻訳指標の評価におけるデータばらつきの検討
- Authors: Jiannan Xiang, Huayang Li, Yahui Liu, Lemao Liu, Guoping Huang, Defu
Lian, Shuming Shi
- Abstract要約: 本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
- 参考スコア(独自算出の注目度): 58.50754318846996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current practices in metric evaluation focus on one single dataset, e.g.,
Newstest dataset in each year's WMT Metrics Shared Task. However, in this
paper, we qualitatively and quantitatively show that the performances of
metrics are sensitive to data. The ranking of metrics varies when the
evaluation is conducted on different datasets. Then this paper further
investigates two potential hypotheses, i.e., insignificant data points and the
deviation of Independent and Identically Distributed (i.i.d) assumption, which
may take responsibility for the issue of data variance. In conclusion, our
findings suggest that when evaluating automatic translation metrics,
researchers should take data variance into account and be cautious to claim the
result on a single dataset, because it may leads to inconsistent results with
most of other datasets.
- Abstract(参考訳): メトリクス評価の現在のプラクティスは、例えば、毎年のWMT Metrics Shared TaskにおけるNewstestデータセットのように、1つのデータセットにフォーカスする。
しかし,本論文では,測定値のパフォーマンスがデータに敏感であることを質的に定量的に示す。
メトリクスのランク付けは、異なるデータセットで評価を行う際に異なる。
そこで本研究では,データ分散の問題に責任を負う可能性のある2つの仮説,すなわち重要データポイントと独立分散(Identically Distributed, Identically Distributed)仮定の逸脱について検討する。
結論として, 自動翻訳メトリクスを評価する場合, 研究者はデータのばらつきを考慮に入れ, 一つのデータセット上で結果の主張を慎重に行なわなければならない。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Uncertainty Quantification of Data Shapley via Statistical Inference [20.35973700939768]
データ市場の出現は、データバリュエーションの重要性の高まりを浮き彫りにしている。
機械学習の世界では、Data Shapleyはデータバリュエーションに広く受け入れられている方法だ。
本稿では,データ共有度と無限次U-統計量の関係について述べる。
論文 参考訳(メタデータ) (2024-07-28T02:54:27Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Truthful Dataset Valuation by Pointwise Mutual Information [28.63827288801458]
観測データを真に報告することで,データ提供者が常に期待するスコアを最大化することができる新しいデータ評価手法を提案する。
本手法は、適切なスコアリングルールのパラダイムに従って、テストデータセットと評価データセットのポイントワイド相互情報(PMI)を測定する。
論文 参考訳(メタデータ) (2024-05-28T15:04:17Z) - Benchmark Transparency: Measuring the Impact of Data on Evaluation [6.307485015636125]
6つの異なる次元にまたがるデータポイント分布を自動計測するフレームワークを提案する。
データ分布が絶対値(Acc/F1)と相対値(Rank)モデルの性能にどの程度影響するかを測定するために,不均質な階層化サンプリングを用いる。
その結果,データの影響は統計的に有意であり,測定値の変更の影響よりも大きいことが判明した。
論文 参考訳(メタデータ) (2024-03-31T17:33:43Z) - Metric Learning Improves the Ability of Combinatorial Coverage Metrics
to Anticipate Classification Error [0.0]
多くの機械学習手法は、トレーニングデータとは異なるテストデータや運用データに敏感である。
計量学習は、異なるクラスのデータがさらに離れている潜在空間を学習する技術である。
6つのオープンソースデータセットについて検討した結果, パラメータ学習により, 正確な分類値と誤分類値との差が増大していることが判明した。
論文 参考訳(メタデータ) (2023-02-28T14:55:57Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。