論文の概要: On the Limits of Minimal Pairs in Contrastive Evaluation
- arxiv url: http://arxiv.org/abs/2109.07465v1
- Date: Wed, 15 Sep 2021 17:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:33:58.099492
- Title: On the Limits of Minimal Pairs in Contrastive Evaluation
- Title(参考訳): コントラスト評価における最小ペアの限界について
- Authors: Jannis Vamvas and Rico Sennrich
- Abstract要約: 実験により、比較評価が偽陽性につながることが示されているので、テストされた仮説は十分に動機づけられるべきである、と我々は主張する。
本稿では,このレコメンデーションを実装した英語-ドイツ語 MT のコントラスト評価スイートを提案する。
- 参考スコア(独自算出の注目度): 26.33252528975464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minimal sentence pairs are frequently used to analyze the behavior of
language models. It is often assumed that model behavior on contrastive pairs
is predictive of model behavior at large. We argue that two conditions are
necessary for this assumption to hold: First, a tested hypothesis should be
well-motivated, since experiments show that contrastive evaluation can lead to
false positives. Secondly, test data should be chosen such as to minimize
distributional discrepancy between evaluation time and deployment time. For a
good approximation of deployment-time decoding, we recommend that minimal pairs
are created based on machine-generated text, as opposed to human-written
references. We present a contrastive evaluation suite for English-German MT
that implements this recommendation.
- Abstract(参考訳): 最小文ペアは言語モデルの振る舞いを分析するために頻繁に使用される。
対照的なペアのモデル挙動は、モデル挙動を概して予測するものであるとしばしば仮定される。
第一に、テストされた仮説は、比較的な評価が偽陽性につながることを実験が示しているので、十分に動機づけられるべきである。
第2に,評価時間とデプロイメント時間の分布的不一致を最小限に抑えるようなテストデータを選択する必要がある。
デプロイ時のデコーディングを適切に近似するために、人間による参照ではなく、マシン生成したテキストに基づいて最小のペアを作成することを推奨する。
本稿では,このレコメンデーションを実装した英語-ドイツ語 MT のコントラスト評価スイートを提案する。
関連論文リスト
- How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z) - Does referent predictability affect the choice of referential form? A
computational approach using masked coreference resolution [10.73926355134268]
本稿では,参照予測可能性の新しい計算量を用いた参照表現のダイナミクスについて検討する。
モデル出力と参照形式の関係に関する統計的分析は、予測可能性が参照の形式に影響を与えるという仮説を支持する。
論文 参考訳(メタデータ) (2021-09-27T14:54:46Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - How to Evaluate Uncertainty Estimates in Machine Learning for
Regression? [1.4610038284393165]
両手法とも,不確実性評価の品質評価には深刻な欠陥があることが示唆された。
第一に、どちらのアプローチも、予測の不確実性を共同で生み出す別個のコンポーネントを解き放つことはできない。
第3に、予測間隔を直接テストする現在のアプローチには、さらなる欠陥がある。
論文 参考訳(メタデータ) (2021-06-07T07:47:46Z) - SimCSE: Simple Contrastive Learning of Sentence Embeddings [10.33373737281907]
本稿では,埋め込み学習フレームワークであるSimCSEについて述べる。
まず、教師なしのアプローチを記述し、入力文を取り、それ自身を対照目的に予測する。
次に,nliデータセットからの注釈付きペアを「補足」ペアを正として,「矛盾」ペアをハード負として対比学習に組み込む。
論文 参考訳(メタデータ) (2021-04-18T11:27:08Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Monotonicity in practice of adaptive testing [0.0]
本稿では,最近提案された単調性勾配アルゴリズムを用いて学習した適応テストのためのベイジアンネットワークモデルについて検討する。
手法の質は、チェコ国立数学試験の大規模なデータセットで実証的に評価される。
論文 参考訳(メタデータ) (2020-09-15T10:55:41Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。