論文の概要: Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for
Everyone
- arxiv url: http://arxiv.org/abs/2110.05802v1
- Date: Tue, 12 Oct 2021 07:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 15:38:28.753189
- Title: Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for
Everyone
- Title(参考訳): codabench: フレキシブルで使いやすい、誰でも再現可能なベンチマーク
- Authors: Zhen Xu, Huan Zhao, Wei-Wei Tu, Magali Richard, Sergio Escalera,
Isabelle Guyon
- Abstract要約: Codabenchは、データセットやタスクに対して、アルゴリズムやソフトウェアエージェントをベンチマークするための、オープンソースでコミュニティ主導のプラットフォームです。
Codabenchのパブリックインスタンスは誰でも無料で公開されている。
- 参考スコア(独自算出の注目度): 45.673814384050004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining standardized crowdsourced benchmark of computational methods is a
major issue in scientific communities. Dedicated frameworks enabling fair
continuous benchmarking in a unified environment are yet to be developed. Here
we introduce Codabench, an open-sourced, community-driven platform for
benchmarking algorithms or software agents versus datasets or tasks. A public
instance of Codabench is open to everyone, free of charge, and allows benchmark
organizers to compare fairly submissions, under the same setting (software,
hardware, data, algorithms), with custom protocols and data formats. Codabench
has unique features facilitating the organization of benchmarks flexibly,
easily and reproducibly. Firstly, it supports code submission and data
submission for testing on dedicated compute workers, which can be supplied by
the benchmark organizers. This makes the system scalable, at low cost for the
platform providers. Secondly, Codabench benchmarks are created from
self-contained bundles, which are zip files containing a full description of
the benchmark in a configuration file (following a well-defined schema),
documentation pages, data, ingestion and scoring programs, making benchmarks
reusable and portable. The Codabench documentation includes many examples of
bundles that can serve as templates. Thirdly, Codabench uses dockers for each
task's running environment to make results reproducible. Codabench has been
used internally and externally with more than 10 applications during the past 6
months. As illustrative use cases, we introduce 4 diverse benchmarks covering
Graph Machine Learning, Cancer Heterogeneity, Clinical Diagnosis and
Reinforcement Learning.
- Abstract(参考訳): 計算手法の標準化されたクラウドソースベンチマークは、科学コミュニティにおいて大きな問題である。
統一環境での公正な継続的ベンチマークを可能にする専用フレームワークはまだ開発されていない。
ここでは、アルゴリズムやソフトウェアエージェントをデータセットやタスクに対してベンチマークするための、オープンソースでコミュニティ駆動のプラットフォームであるcodabenchを紹介します。
Codabenchのパブリックインスタンスは誰でも無料で公開されており、ベンチマークのオーガナイザは同じ設定(ソフトウェア、ハードウェア、データ、アルゴリズム)とカスタムプロトコルとデータフォーマットを比較することができる。
Codabenchには、フレキシブル、簡単、再現可能なベンチマークの編成を容易にするユニークな機能がある。
まず、専用のコンピュータワーカーのテストのためのコード提出とデータ提出をサポートし、ベンチマークオーガナイザが提供できる。
これによってシステムのスケーラビリティが向上し、プラットフォームプロバイダは低コストになる。
次に、codabenchベンチマークは、(明確に定義されたスキーマに従う)構成ファイル、ドキュメントページ、データ、取り込みおよびスコア付けプログラム、ベンチマークの再利用性と可搬性を備えたzipファイルである、自己完結したバンドルから生成される。
Codabenchのドキュメントには、テンプレートとして使えるバンドルの例が多数含まれている。
第3に、Codabenchは各タスクの実行環境のドッキングを使って結果を再現する。
Codabenchは、過去6ヶ月で10以上のアプリケーションで、内部および外部で使用されている。
実例として,グラフ機械学習,癌異質性,臨床診断,強化学習の4つのベンチマークを紹介する。
関連論文リスト
- ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with
Distributed Stream Processing Frameworks [1.4374467687356276]
本稿では、最新のストリーム処理フレームワークの性能を評価するための新しいベンチマークであるShuffleBenchを紹介する。
ShuffleBenchは、大規模なクラウドオブザーバビリティプラットフォームのほぼリアルタイム分析の要件にインスパイアされている。
その結果,Herzelcastは低レイテンシでデータストリームを処理するのに対して,Flinkは最高スループットを実現していることがわかった。
論文 参考訳(メタデータ) (2024-03-07T15:06:24Z) - FFB: A Fair Fairness Benchmark for In-Processing Group Fairness Methods [57.18130745705417]
本稿では,グループフェアネス手法のベンチマークフレームワークであるFair Fairness Benchmark(textsfFFB)を紹介する。
グループフェアネスの異なる概念を確実にするための最先端手法を包括的に分析する。
論文 参考訳(メタデータ) (2023-06-15T19:51:28Z) - RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems [43.797002322559834]
RepoBenchは、コードの自動補完システムを評価するためのベンチマークである。
RepoBench-R (Retrieval)、RepoBench-C (Code Completion)、RepoBench-P (Pipeline)の3つの評価タスクで構成されている。
論文 参考訳(メタデータ) (2023-06-05T17:59:41Z) - BeGin: Extensive Benchmark Scenarios and An Easy-to-use Framework for
Graph Continual Learning [18.32208249344985]
連続学習(英: Continual Learning, CL)とは、絶え間なく一連のタスクを学習する過程である。
グラフデータ(グラフCL)は、標準的な実験的な設定が欠如しているため、比較的過小評価されている。
我々は,グラフCLのための容易かつ愚かなフレームワークであるBeGinを開発した。
論文 参考訳(メタデータ) (2022-11-26T13:48:05Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - Are Missing Links Predictable? An Inferential Benchmark for Knowledge
Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。
各テストサンプルは、トレーニングセットの支持データで予測可能である。
実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文 参考訳(メタデータ) (2021-08-03T09:51:15Z) - Searching CUDA code autotuning spaces with hardware performance
counters: data from benchmarks running on various GPU architectures [0.0]
我々は,パフォーマンス関連ソースコードパラメータを考慮に入れたベンチマークを開発し,GPUアーキテクチャのピークに近い性能に到達した。
当社のフレームワークであるKernel Tuning Toolkitでは、複数のGPU上での時間とハードウェアパフォーマンスカウンタを測定し、5つのベンチマークの完全なチューニングスペースを測定しました。
本稿では,検索者に対するロバストな評価や,他者との比較に用いたスクリプトについて詳述する。
論文 参考訳(メタデータ) (2021-02-10T07:51:09Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。