論文の概要: On the Limits of Minimal Pairs in Contrastive Evaluation
- arxiv url: http://arxiv.org/abs/2109.07465v1
- Date: Wed, 15 Sep 2021 17:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:33:58.099492
- Title: On the Limits of Minimal Pairs in Contrastive Evaluation
- Title(参考訳): コントラスト評価における最小ペアの限界について
- Authors: Jannis Vamvas and Rico Sennrich
- Abstract要約: 実験により、比較評価が偽陽性につながることが示されているので、テストされた仮説は十分に動機づけられるべきである、と我々は主張する。
本稿では,このレコメンデーションを実装した英語-ドイツ語 MT のコントラスト評価スイートを提案する。
- 参考スコア(独自算出の注目度): 26.33252528975464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minimal sentence pairs are frequently used to analyze the behavior of
language models. It is often assumed that model behavior on contrastive pairs
is predictive of model behavior at large. We argue that two conditions are
necessary for this assumption to hold: First, a tested hypothesis should be
well-motivated, since experiments show that contrastive evaluation can lead to
false positives. Secondly, test data should be chosen such as to minimize
distributional discrepancy between evaluation time and deployment time. For a
good approximation of deployment-time decoding, we recommend that minimal pairs
are created based on machine-generated text, as opposed to human-written
references. We present a contrastive evaluation suite for English-German MT
that implements this recommendation.
- Abstract(参考訳): 最小文ペアは言語モデルの振る舞いを分析するために頻繁に使用される。
対照的なペアのモデル挙動は、モデル挙動を概して予測するものであるとしばしば仮定される。
第一に、テストされた仮説は、比較的な評価が偽陽性につながることを実験が示しているので、十分に動機づけられるべきである。
第2に,評価時間とデプロイメント時間の分布的不一致を最小限に抑えるようなテストデータを選択する必要がある。
デプロイ時のデコーディングを適切に近似するために、人間による参照ではなく、マシン生成したテキストに基づいて最小のペアを作成することを推奨する。
本稿では,このレコメンデーションを実装した英語-ドイツ語 MT のコントラスト評価スイートを提案する。
関連論文リスト
- CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Does referent predictability affect the choice of referential form? A
computational approach using masked coreference resolution [10.73926355134268]
本稿では,参照予測可能性の新しい計算量を用いた参照表現のダイナミクスについて検討する。
モデル出力と参照形式の関係に関する統計的分析は、予測可能性が参照の形式に影響を与えるという仮説を支持する。
論文 参考訳(メタデータ) (2021-09-27T14:54:46Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - How to Evaluate Uncertainty Estimates in Machine Learning for
Regression? [1.4610038284393165]
両手法とも,不確実性評価の品質評価には深刻な欠陥があることが示唆された。
第一に、どちらのアプローチも、予測の不確実性を共同で生み出す別個のコンポーネントを解き放つことはできない。
第3に、予測間隔を直接テストする現在のアプローチには、さらなる欠陥がある。
論文 参考訳(メタデータ) (2021-06-07T07:47:46Z) - Monotonicity in practice of adaptive testing [0.0]
本稿では,最近提案された単調性勾配アルゴリズムを用いて学習した適応テストのためのベイジアンネットワークモデルについて検討する。
手法の質は、チェコ国立数学試験の大規模なデータセットで実証的に評価される。
論文 参考訳(メタデータ) (2020-09-15T10:55:41Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。