Fugu-MT 論文翻訳(概要): Learning from Crowds with Crowd-Kit

論文の概要: Learning from Crowds with Crowd-Kit

arxiv url: http://arxiv.org/abs/2109.08584v4
Date: Sat, 6 Apr 2024 08:53:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 21:05:06.830216
Title: Learning from Crowds with Crowd-Kit
Title（参考訳）: Crowd-Kitで群衆から学ぶ
Authors: Dmitry Ustalov, Nikita Pavlichenko, Boris Tseitlin,
Abstract要約: Crowd-KitはPythonで人気のある品質管理アルゴリズムの効率的で便利な実装を提供する。我々のツールキットは、複数の回答のモダリティをサポートし、より高速なプロトタイピングのためのデータセットローダとサンプルノートを提供する。
参考スコア（独自算出の注目度）: 8.428764242241241
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents Crowd-Kit, a general-purpose computational quality control toolkit for crowdsourcing. Crowd-Kit provides efficient and convenient implementations of popular quality control algorithms in Python, including methods for truth inference, deep learning from crowds, and data quality estimation. Our toolkit supports multiple modalities of answers and provides dataset loaders and example notebooks for faster prototyping. We extensively evaluated our toolkit on several datasets of different natures, enabling benchmarking computational quality control methods in a uniform, systematic, and reproducible way using the same codebase. We release our code and data under the Apache License 2.0 at https://github.com/Toloka/crowd-kit.
Abstract（参考訳）: 本稿では,クラウドソーシングのための汎用計算品質管理ツールキットであるCrowd-Kitを提案する。 Crowd-Kitは、真実推論、群衆からのディープラーニング、データ品質推定など、Pythonで一般的な品質管理アルゴリズムの効率的で便利な実装を提供する。我々のツールキットは、複数の回答のモダリティをサポートし、より高速なプロトタイピングのためのデータセットローダとサンプルノートを提供する。我々は、異なる性質のデータセットでツールキットを広範囲に評価し、同じコードベースを使って一様で体系的で再現可能な方法で計算品質管理手法のベンチマークを可能にした。私たちはApache License 2.0の下でコードとデータをhttps://github.com/Toloka/crowd-kit.comでリリースしています。

関連論文リスト

CLIMB: Class-imbalanced Learning Benchmark on Tabular Data [68.07599497425267]
クラス不均衡学習(クラス不均衡学習、class-imbalanced learning、CIL)は、マイノリティクラスが重要な結果を持っている多くの実世界のアプリケーションにおいて重要である。本稿では,クラス不均衡学習のための総合的なベンチマークであるCLIMBを提案する。 CLIMBには、さまざまなドメインと不均衡レベルにわたる73の現実世界データセットと、29の代表的なCILアルゴリズムの統一実装が含まれている。
論文参考訳（メタデータ） (2025-05-23T04:21:03Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for Foundation Models [64.28420991770382]
我々は,100以上の演算子が支援する実りあるデータ処理機能を提供する新しいシステムであるData-Juicer 2.0を提案する。このシステムは、さまざまな研究努力、実用的なアプリケーション、Alibaba Cloud PAIのような現実世界の製品で、公開され、積極的に維持され、広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文参考訳（メタデータ） (2024-08-29T12:34:01Z)
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。 VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文参考訳（メタデータ） (2024-07-16T13:06:15Z)
Studying the Impact of TensorFlow and PyTorch Bindings on Machine Learning Software Quality [13.098132379075603]
C#、Rust、Python、JavaScriptのバインディングがソフトウェアの品質に与える影響について調査する。実験により、あるモデルがひとつのバインディングでトレーニングされ、同じフレームワークの別のバインディングでの推論に使用されることが、精度を損なうことなく明らかとなった。
論文参考訳（メタデータ） (2024-07-07T18:39:27Z)
Benchmarking Predictive Coding Networks -- Made Simple [48.652114040426625]
機械学習における予測符号化ネットワーク(PCN)の効率性とスケーラビリティの問題に取り組む。そこで我々は,PCXと呼ばれる,パフォーマンスと簡易性を重視したライブラリを提案する。我々は,PCNの既存アルゴリズムと,生物工学的な深層学習コミュニティで普及している他の手法を併用して,このようなベンチマークを広範囲に実施する。
論文参考訳（メタデータ） (2024-07-01T10:33:44Z)
LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data [3.66486428341988]
マルチモーダルディープラーニングは、テキスト、画像、オーディオ、ビデオなどの多様な情報ソースを統合することで意思決定を強化する。信頼性の高いマルチモーダルアプローチを開発するためには、これらのモデルがいかに不確実性に与える影響を理解することが不可欠である。我々は,不確実かつマルチモーダルなデータから学習するために,50クラスの音声,画像,テキストデータを含むユニークなベンチマークデータセットLUMAを提案する。
論文参考訳（メタデータ） (2024-06-14T09:22:07Z)
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach [36.47860223750303]
自己教師付き事前学習のための高品質データセットの自動キュレーションの問題点を考察する。これらの基準をすべて満たしたクラスタリングに基づく手法を提案する。我々の方法は、大規模で多様なデータリポジトリ上で、$k$-meansの連続的かつ階層的なアプリケーションを含む。
論文参考訳（メタデータ） (2024-05-24T14:58:51Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning [110.54752872873472]
MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。 MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
論文参考訳（メタデータ） (2023-06-28T17:59:10Z)
PyPOTS: A Python Toolkit for Machine Learning on Partially-Observed Time Series [20.491714178518155]
PyPOTSは、データマイニングと分析のためのオープンソースのライブラリである。 5つのタスクに分類される多様なアルゴリズムに簡単にアクセスできる。 PyPOTSはPyPI、Anaconda、Dockerで利用できる。
論文参考訳（メタデータ） (2023-05-30T07:57:05Z)
A framework for benchmarking clustering algorithms [2.900810893770134]
クラスタリングアルゴリズムは、さまざまなベンチマーク問題でテストできる。多くの研究論文や大学院論文では、少数のデータセットしか考慮していない。我々はクラスタリングアルゴリズムをテストする一貫した方法論を導入することを目的としたフレームワークを開発した。
論文参考訳（メタデータ） (2022-09-20T06:10:41Z)
Opacus: User-Friendly Differential Privacy Library in PyTorch [54.8720687562153]
私たちは、差分プライバシーでディープラーニングモデルをトレーニングするための、オープンソースのPyTorchライブラリであるOpacusを紹介します。シンプルでユーザフレンドリなAPIを提供しており、コードに最大2行を追加することで、マシンラーニングの実践者がトレーニングパイプラインをプライベートにすることができる。
論文参考訳（メタデータ） (2021-09-25T07:10:54Z)
Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文参考訳（メタデータ） (2021-06-07T23:57:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。