論文の概要: Adversarially Constructed Evaluation Sets Are More Challenging, but May
Not Be Fair
- arxiv url: http://arxiv.org/abs/2111.08181v1
- Date: Tue, 16 Nov 2021 01:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:10:39.258548
- Title: Adversarially Constructed Evaluation Sets Are More Challenging, but May
Not Be Fair
- Title(参考訳): 逆さまに構築された評価セットはもっと難しいが、公平ではないかもしれない
- Authors: Jason Phang, Angelica Chen, William Huang, Samuel R. Bowman
- Abstract要約: より困難なデータセットを構築するための戦略として、敵対的なデータセット作成が提案されている。
評価データをフィルタするためにAFLiteアルゴリズムを適用し、18種類の対戦モデルに対して実験を行う。
AFLiteは、より難しい例を選択し、より強力な敵モデルを使用するように、評価されたモデルの性能を低下させる。
- 参考スコア(独自算出の注目度): 23.87794015063672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: More capable language models increasingly saturate existing task benchmarks,
in some cases outperforming humans. This has left little headroom with which to
measure further progress. Adversarial dataset creation has been proposed as a
strategy to construct more challenging datasets, and two common approaches are:
(1) filtering out easy examples and (2) model-in-the-loop data collection. In
this work, we study the impact of applying each approach to create more
challenging evaluation datasets. We adapt the AFLite algorithm to filter
evaluation data, and run experiments against 18 different adversary models. We
find that AFLite indeed selects more challenging examples, lowering the
performance of evaluated models more as stronger adversary models are used.
However, the resulting ranking of models can also be unstable and highly
sensitive to the choice of adversary model used. Moreover, AFLite oversamples
examples with low annotator agreement, meaning that model comparisons hinge on
the most contentiously labeled examples. Smaller-scale experiments on the
adversarially collected datasets ANLI and AdversarialQA show similar findings,
broadly lowering performance with stronger adversaries while disproportionately
affecting the adversary model.
- Abstract(参考訳): より有能な言語モデルは、既存のタスクベンチマークを飽和させる傾向にある。
これにより、さらなる進展を測定するためのヘッドルームがほとんどなくなった。
より困難なデータセットを構築するための戦略として,(1)簡単な例のフィルタリング,(2)ループ内のモデルデータ収集の2つの一般的なアプローチが提案されている。
本研究では,より困難な評価データセットを作成するために,それぞれのアプローチを適用することの影響について検討する。
afliteアルゴリズムをフィルタ評価データに適用し、18の異なる敵モデルに対して実験を行う。
AFLiteは、より難しい例を選択し、より強力な敵モデルを使用するように、評価されたモデルの性能を低下させる。
しかし、結果のモデルランキングは不安定であり、使用する敵モデルの選択に非常に敏感である。
さらに、afliteはアノテーションの少ない例を例にオーバーサンプリングする。
anliとadversarialqaで収集されたデータセットの小規模実験も同様の結果を示し、より強力な敵によって性能を低下させながら、逆モデルに不釣り合いに影響を及ぼす。
関連論文リスト
- Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Simplicity Bias Leads to Amplified Performance Disparities [8.60453031364566]
SGDで訓練されたモデルは、単純さに偏りがあることを示し、多数派の学習を優先させる。
モデルは、単純なデータセットのクラスやグループを優先順位付けし、複雑なものを見つけることを犠牲にすることができる。
論文 参考訳(メタデータ) (2022-12-13T15:24:41Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Improving Question Answering Model Robustness with Synthetic Adversarial
Data Generation [41.9785159975426]
最先端の質問応答モデルは、様々な敵の攻撃を受けやすいままであり、人間レベルの言語理解を得るには程遠い。
提案されている1つの方法は動的逆データ収集であり、人間のアノテータがループ内のモデルが失敗する例を作成しようとするものである。
本研究では,合成逆データ生成パイプラインを構成する複数の回答選択,質問生成,フィルタリング手法について検討する。
合成データと人為的データの両方で訓練されたモデルは、合成逆数データで訓練されていないモデルより優れ、対数上での最先端の結果を得る
論文 参考訳(メタデータ) (2021-04-18T02:00:06Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Estimating Example Difficulty Using Variance of Gradients [5.69361786082969]
VoG(Variance of Gradients)は、データのランク付けを難しくする指標である。
ここでは,VoGはデータのランク付けに難易度の高い指標であることを示す。
論文 参考訳(メタデータ) (2020-08-26T14:53:24Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。