論文の概要: Learning from Crowds with Crowd-Kit
- arxiv url: http://arxiv.org/abs/2109.08584v4
- Date: Sat, 6 Apr 2024 08:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 21:05:06.830216
- Title: Learning from Crowds with Crowd-Kit
- Title(参考訳): Crowd-Kitで群衆から学ぶ
- Authors: Dmitry Ustalov, Nikita Pavlichenko, Boris Tseitlin,
- Abstract要約: Crowd-KitはPythonで人気のある品質管理アルゴリズムの効率的で便利な実装を提供する。
我々のツールキットは、複数の回答のモダリティをサポートし、より高速なプロトタイピングのためのデータセットローダとサンプルノートを提供する。
- 参考スコア(独自算出の注目度): 8.428764242241241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Crowd-Kit, a general-purpose computational quality control toolkit for crowdsourcing. Crowd-Kit provides efficient and convenient implementations of popular quality control algorithms in Python, including methods for truth inference, deep learning from crowds, and data quality estimation. Our toolkit supports multiple modalities of answers and provides dataset loaders and example notebooks for faster prototyping. We extensively evaluated our toolkit on several datasets of different natures, enabling benchmarking computational quality control methods in a uniform, systematic, and reproducible way using the same codebase. We release our code and data under the Apache License 2.0 at https://github.com/Toloka/crowd-kit.
- Abstract(参考訳): 本稿では,クラウドソーシングのための汎用計算品質管理ツールキットであるCrowd-Kitを提案する。
Crowd-Kitは、真実推論、群衆からのディープラーニング、データ品質推定など、Pythonで一般的な品質管理アルゴリズムの効率的で便利な実装を提供する。
我々のツールキットは、複数の回答のモダリティをサポートし、より高速なプロトタイピングのためのデータセットローダとサンプルノートを提供する。
我々は、異なる性質のデータセットでツールキットを広範囲に評価し、同じコードベースを使って一様で体系的で再現可能な方法で計算品質管理手法のベンチマークを可能にした。
私たちはApache License 2.0の下でコードとデータをhttps://github.com/Toloka/crowd-kit.comでリリースしています。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z) - Studying the Impact of TensorFlow and PyTorch Bindings on Machine Learning Software Quality [13.098132379075603]
C#、Rust、Python、JavaScriptのバインディングがソフトウェアの品質に与える影響について調査する。
実験により、あるモデルがひとつのバインディングでトレーニングされ、同じフレームワークの別のバインディングでの推論に使用されることが、精度を損なうことなく明らかとなった。
論文 参考訳(メタデータ) (2024-07-07T18:39:27Z) - LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data [3.66486428341988]
マルチモーダルディープラーニングは、テキスト、画像、オーディオ、ビデオなどの多様な情報ソースを統合することで意思決定を強化する。
信頼性の高いマルチモーダルアプローチを開発するためには、これらのモデルがいかに不確実性に与える影響を理解することが不可欠である。
我々は,不確実かつマルチモーダルなデータから学習するために,50クラスの音声,画像,テキストデータを含むユニークなベンチマークデータセットLUMAを提案する。
論文 参考訳(メタデータ) (2024-06-14T09:22:07Z) - Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach [36.47860223750303]
自己教師付き事前学習のための高品質データセットの自動キュレーションの問題点を考察する。
これらの基準をすべて満たしたクラスタリングに基づく手法を提案する。
我々の方法は、大規模で多様なデータリポジトリ上で、$k$-meansの連続的かつ階層的なアプリケーションを含む。
論文 参考訳(メタデータ) (2024-05-24T14:58:51Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep
Learning [110.54752872873472]
MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
論文 参考訳(メタデータ) (2023-06-28T17:59:10Z) - A framework for benchmarking clustering algorithms [2.900810893770134]
クラスタリングアルゴリズムは、さまざまなベンチマーク問題でテストできる。
多くの研究論文や大学院論文では、少数のデータセットしか考慮していない。
我々はクラスタリングアルゴリズムをテストする一貫した方法論を導入することを目的としたフレームワークを開発した。
論文 参考訳(メタデータ) (2022-09-20T06:10:41Z) - Opacus: User-Friendly Differential Privacy Library in PyTorch [54.8720687562153]
私たちは、差分プライバシーでディープラーニングモデルをトレーニングするための、オープンソースのPyTorchライブラリであるOpacusを紹介します。
シンプルでユーザフレンドリなAPIを提供しており、コードに最大2行を追加することで、マシンラーニングの実践者がトレーニングパイプラインをプライベートにすることができる。
論文 参考訳(メタデータ) (2021-09-25T07:10:54Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。