論文の概要: WRENCH: A Comprehensive Benchmark for Weak Supervision
- arxiv url: http://arxiv.org/abs/2109.11377v1
- Date: Thu, 23 Sep 2021 13:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:18:31.065769
- Title: WRENCH: A Comprehensive Benchmark for Weak Supervision
- Title(参考訳): WRENCH:Weak Supervisionの総合ベンチマーク
- Authors: Jieyu Zhang, Yue Yu, Yinghao Li, Yujing Wang, Yaming Yang, Mao Yang,
Alexander Ratner
- Abstract要約: ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
- 参考スコア(独自算出の注目度): 66.82046201714766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent \emph{Weak Supervision (WS)} approaches have had widespread success in
easing the bottleneck of labeling training data for machine learning by
synthesizing labels from multiple potentially noisy supervision sources.
However, proper measurement and analysis of these approaches remain a
challenge. First, datasets used in existing works are often private and/or
custom, limiting standardization. Second, WS datasets with the same name and
base data often vary in terms of the labels and weak supervision sources used,
a significant "hidden" source of evaluation variance. Finally, WS studies often
diverge in terms of the evaluation protocol and ablations used. To address
these problems, we introduce a benchmark platform, \benchmark, for a thorough
and standardized evaluation of WS approaches. It consists of 22 varied
real-world datasets for classification and sequence tagging; a range of real,
synthetic, and procedurally-generated weak supervision sources; and a modular,
extensible framework for WS evaluation, including implementations for popular
WS methods. We use \benchmark to conduct extensive comparisons over more than
100 method variants to demonstrate its efficacy as a benchmark platform. The
code is available at \url{https://github.com/JieyuZ2/wrench}.
- Abstract(参考訳): 近年の 'emph{Weak Supervision (WS)} アプローチは、複数の潜在的ノイズのある監督ソースからラベルを合成することで、機械学習のためのトレーニングデータのラベル付けのボトルネックを緩和することに成功した。
しかし、これらのアプローチの適切な測定と分析は依然として課題である。
まず、既存の作品で使用されるデータセットは、しばしばプライベートまたはカスタムであり、標準化を制限する。
次に、同じ名前とベースデータを持つwsデータセットは、しばしば使用されているラベルと弱い監督ソースの観点で異なります。
最後に、WS研究は、しばしば、使用される評価プロトコルとアブリケーションの観点でばらつきます。
これらの問題に対処するために、wsアプローチを徹底的かつ標準化した評価のために、ベンチマークプラットフォームである \benchmark を紹介します。
分類とシーケンスタグ付けのための22の現実世界のデータセット、実際の、合成され、手続き的に生成される弱い監督ソースの範囲、および人気のあるWSメソッドの実装を含むWS評価のためのモジュール化された拡張可能なフレームワークで構成されています。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うために、Shabenchmarkを使用します。
コードは \url{https://github.com/jieyuz2/wrench} で入手できる。
関連論文リスト
- TSGBench: Time Series Generation Benchmark [11.199605025284185]
textsfTSGBenchは、合成時系列生成法の統一的で包括的な評価である。
1)TSG用に調整された公開データセットの収集と標準化された前処理パイプライン、(2)バニラ測度、新しい距離ベースアセスメント、可視化ツールを含む総合的な評価スイート、(3)ドメイン適応(DA)に根ざした先駆的な一般化テストである。
我々は,10の高度なTSG手法と12の評価尺度を用いて,多様な領域から10の現実世界データセットのスペクトルにわたってテキストfTSGBenchを用いて実験を行った。
論文 参考訳(メタデータ) (2023-09-07T14:51:42Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - Lifting Weak Supervision To Structured Prediction [12.219011764895853]
弱監督 (WS) は、容易に得られるがノイズの多いラベル推定を集約することで擬似ラベルを生成する、豊富な手法のセットである。
擬ユークリッド埋め込みとテンソル分解に基づく弱監督手法を提案する。
ノイズのあるラベルを持つ構造化予測において頑健性を保証するとみなすこの結果のいくつかは、独立した関心事である可能性がある。
論文 参考訳(メタデータ) (2022-11-24T02:02:58Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Extending the WILDS Benchmark for Unsupervised Adaptation [186.90399201508953]
We present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data。
これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
ドメイン不変量や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークする。
論文 参考訳(メタデータ) (2021-12-09T18:32:38Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - Back to Square One: Bias Detection, Training and Commonsense
Disentanglement in the Winograd Schema [106.79804048131253]
Winograd(WS)は、モデルの常識能力を測定するテストとして提案されている。
本稿では,WS の現在評価手法が準最適であることを示し,その評価にツイン文を用いる修正を提案する。
私たちは、WSの明らかな進歩の多くは、必ずしも常識推論の進歩を反映していないと結論付けています。
論文 参考訳(メタデータ) (2021-04-16T15:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。