論文の概要: Searching for a higher power in the human evaluation of MT
- arxiv url: http://arxiv.org/abs/2210.11612v1
- Date: Thu, 20 Oct 2022 22:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:30:05.645989
- Title: Searching for a higher power in the human evaluation of MT
- Title(参考訳): MTの人的評価における高次パワーの探索
- Authors: Johnny Tian-Zheng Wei, Tom Kocmi, and Christian Federmann
- Abstract要約: ペアのDA比較の大規模なコレクションにおいて、そのパワー(重要度を達成するための時間)について検討する。
中間テストは、現在の予算の3倍の費用を費やすと、最大27%の効率向上を達成することができる。
- 参考スコア(独自算出の注目度): 8.755896567286475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In MT evaluation, pairwise comparisons are conducted to identify the better
system. In conducting the comparison, the experimenter must allocate a budget
to collect Direct Assessment (DA) judgments. We provide a cost effective way to
spend the budget, but show that typical budget sizes often do not allow for
solid comparison. Taking the perspective that the basis of solid comparison is
in achieving statistical significance, we study the power (rate of achieving
significance) on a large collection of pairwise DA comparisons. Due to the
nature of statistical estimation, power is low for differentiating less than
1-2 DA points, and to achieve a notable increase in power requires at least
2-3x more samples. Applying variance reduction alone will not yield these
gains, so we must face the reality of undetectable differences and spending
increases. In this context, we propose interim testing, an "early stopping"
collection procedure that yields more power per judgment collected, which
adaptively focuses the budget on pairs that are borderline significant. Interim
testing can achieve up to a 27% efficiency gain when spending 3x the current
budget, or 18% savings at the current evaluation power.
- Abstract(参考訳): MT評価では、より良いシステムを特定するためにペアワイズ比較を行う。
比較を行う際、実験者は直接評価(da)判断を収集するために予算を割り当てなければならない。
予算を費やすためのコスト効率のよい方法を提供するが、典型的な予算サイズでは、しっかりとした比較ができないことが多いことを示します。
統計的意義の達成に固体比較の基礎が重要であるという観点から,ペアワイズda比較の大規模なコレクションにおける力(有意性)について検討する。
統計的推定の性質のため、1-2 DA 点未満の差分には電力が低く、顕著な増加には少なくとも2-3倍のサンプルが必要である。
分散還元を単独で適用してもこれらの利益は得られないため、検出不能な差異と支出の増加の現実に直面する必要がある。
この文脈において、我々は、判断ごとにより多くのパワーを得られる「早期停止」収集手順である暫定テストを提案し、予算を境界となるペアに適応的に集中させる。
中間テストは、現在の予算の3倍、または現在の評価力で18%の節約を行うと、最大27%の効率向上を達成できる。
関連論文リスト
- Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - U-Statistics for Importance-Weighted Variational Inference [29.750633016889655]
重要重み付き変分推論における推定のばらつきを低減するために,U-statisticsを用いた手法を提案する。
実験により,U-Statistic variance reduction(U-Statistic variance)の低減は,モデルの範囲での推論性能の大幅な改善につながることが確認された。
論文 参考訳(メタデータ) (2023-02-27T16:08:43Z) - Efficient Aggregated Kernel Tests using Incomplete $U$-statistics [22.251118308736327]
提案した3つのテストは、複数のカーネル帯域に集約され、さまざまなスケールでnullからの離脱を検出する。
提案した線形時間集約テストは,現在最先端の線形時間カーネルテストよりも高い出力が得られることを示す。
論文 参考訳(メタデータ) (2022-06-18T12:30:06Z) - Expected Validation Performance and Estimation of a Random Variable's
Maximum [48.83713377993604]
予測された検証性能に対する3つの統計的推定器を解析する。
偏りのない推定器は最も分散度が高く、最小分散度を持つ推定器は最大のバイアスを持つ。
2つの偏りのある推定器は、最も少ない誤った結論につながる。
論文 参考訳(メタデータ) (2021-10-01T18:48:47Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - With Little Power Comes Great Responsibility [54.96675741328462]
アンダーパワー実験により、統計的ノイズと有意義なモデル改善の違いを識別することがより困難になる。
小さなテストセットは、ほとんどの試行錯誤が、最先端のモデルと比較しても、十分なパワーが得られないことを意味している。
機械翻訳では,2000文の典型的テストセットが約75%のパワーで1 BLEU点の差を検出する。
論文 参考訳(メタデータ) (2020-10-13T18:00:02Z) - Strategy for Boosting Pair Comparison and Improving Quality Assessment
Accuracy [29.849156371902943]
ペア比較(PC)は、差別性の観点からは絶対カテゴリー評価(ACR)に対して大きな利点がある。
本研究では,ペア比較データとACRデータをブリッジする汎用モデルを用いて,分散項を復元し,得られた情報がより完全であることを示す。
このようにして、提案手法はペア比較の精度を同等に向上するが、ACRほど高い包括性を達成できる。
論文 参考訳(メタデータ) (2020-10-01T13:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。