論文の概要: Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for
Everyone
- arxiv url: http://arxiv.org/abs/2110.05802v1
- Date: Tue, 12 Oct 2021 07:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 15:38:28.753189
- Title: Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for
Everyone
- Title(参考訳): codabench: フレキシブルで使いやすい、誰でも再現可能なベンチマーク
- Authors: Zhen Xu, Huan Zhao, Wei-Wei Tu, Magali Richard, Sergio Escalera,
Isabelle Guyon
- Abstract要約: Codabenchは、データセットやタスクに対して、アルゴリズムやソフトウェアエージェントをベンチマークするための、オープンソースでコミュニティ主導のプラットフォームです。
Codabenchのパブリックインスタンスは誰でも無料で公開されている。
- 参考スコア(独自算出の注目度): 45.673814384050004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining standardized crowdsourced benchmark of computational methods is a
major issue in scientific communities. Dedicated frameworks enabling fair
continuous benchmarking in a unified environment are yet to be developed. Here
we introduce Codabench, an open-sourced, community-driven platform for
benchmarking algorithms or software agents versus datasets or tasks. A public
instance of Codabench is open to everyone, free of charge, and allows benchmark
organizers to compare fairly submissions, under the same setting (software,
hardware, data, algorithms), with custom protocols and data formats. Codabench
has unique features facilitating the organization of benchmarks flexibly,
easily and reproducibly. Firstly, it supports code submission and data
submission for testing on dedicated compute workers, which can be supplied by
the benchmark organizers. This makes the system scalable, at low cost for the
platform providers. Secondly, Codabench benchmarks are created from
self-contained bundles, which are zip files containing a full description of
the benchmark in a configuration file (following a well-defined schema),
documentation pages, data, ingestion and scoring programs, making benchmarks
reusable and portable. The Codabench documentation includes many examples of
bundles that can serve as templates. Thirdly, Codabench uses dockers for each
task's running environment to make results reproducible. Codabench has been
used internally and externally with more than 10 applications during the past 6
months. As illustrative use cases, we introduce 4 diverse benchmarks covering
Graph Machine Learning, Cancer Heterogeneity, Clinical Diagnosis and
Reinforcement Learning.
- Abstract(参考訳): 計算手法の標準化されたクラウドソースベンチマークは、科学コミュニティにおいて大きな問題である。
統一環境での公正な継続的ベンチマークを可能にする専用フレームワークはまだ開発されていない。
ここでは、アルゴリズムやソフトウェアエージェントをデータセットやタスクに対してベンチマークするための、オープンソースでコミュニティ駆動のプラットフォームであるcodabenchを紹介します。
Codabenchのパブリックインスタンスは誰でも無料で公開されており、ベンチマークのオーガナイザは同じ設定(ソフトウェア、ハードウェア、データ、アルゴリズム)とカスタムプロトコルとデータフォーマットを比較することができる。
Codabenchには、フレキシブル、簡単、再現可能なベンチマークの編成を容易にするユニークな機能がある。
まず、専用のコンピュータワーカーのテストのためのコード提出とデータ提出をサポートし、ベンチマークオーガナイザが提供できる。
これによってシステムのスケーラビリティが向上し、プラットフォームプロバイダは低コストになる。
次に、codabenchベンチマークは、(明確に定義されたスキーマに従う)構成ファイル、ドキュメントページ、データ、取り込みおよびスコア付けプログラム、ベンチマークの再利用性と可搬性を備えたzipファイルである、自己完結したバンドルから生成される。
Codabenchのドキュメントには、テンプレートとして使えるバンドルの例が多数含まれている。
第3に、Codabenchは各タスクの実行環境のドッキングを使って結果を再現する。
Codabenchは、過去6ヶ月で10以上のアプリケーションで、内部および外部で使用されている。
実例として,グラフ機械学習,癌異質性,臨床診断,強化学習の4つのベンチマークを紹介する。
関連論文リスト
- CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。
私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。
ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文 参考訳(メタデータ) (2025-01-18T09:51:57Z) - RBoard: A Unified Platform for Reproducible and Reusable Recommender System Benchmarks [0.4312340306206883]
RBoardは推奨システムのベンチマークのための新しいフレームワークである。
CTR予測やTop-Nレコメンデーションなど、さまざまなレコメンデーションタスクをベンチマークするための総合的なプラットフォームを提供する。
このフレームワークは各タスク内の複数のデータセットにまたがるアルゴリズムを評価し、総合的なパフォーマンス評価の結果を集約する。
論文 参考訳(メタデータ) (2024-09-09T11:35:35Z) - Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。
その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。
1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。
これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文 参考訳(メタデータ) (2024-07-29T06:13:28Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Benchmarking Predictive Coding Networks -- Made Simple [48.652114040426625]
機械学習における予測符号化ネットワーク(PCN)の効率性とスケーラビリティの問題に取り組む。
そこで我々は,PCXと呼ばれる,パフォーマンスと簡易性を重視したライブラリを提案する。
我々は,PCNの既存アルゴリズムと,生物工学的な深層学習コミュニティで普及している他の手法を併用して,このようなベンチマークを広範囲に実施する。
論文 参考訳(メタデータ) (2024-07-01T10:33:44Z) - ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with
Distributed Stream Processing Frameworks [1.4374467687356276]
本稿では、最新のストリーム処理フレームワークの性能を評価するための新しいベンチマークであるShuffleBenchを紹介する。
ShuffleBenchは、大規模なクラウドオブザーバビリティプラットフォームのほぼリアルタイム分析の要件にインスパイアされている。
その結果,Herzelcastは低レイテンシでデータストリームを処理するのに対して,Flinkは最高スループットを実現していることがわかった。
論文 参考訳(メタデータ) (2024-03-07T15:06:24Z) - BeGin: Extensive Benchmark Scenarios and An Easy-to-use Framework for Graph Continual Learning [18.32208249344985]
連続学習(英: Continual Learning, CL)とは、絶え間なく一連のタスクを学習する過程である。
グラフデータ(グラフCL)は、標準的な実験的な設定が欠如しているため、比較的過小評価されている。
我々は,グラフCLのための容易かつ愚かなフレームワークであるBeGinを開発した。
論文 参考訳(メタデータ) (2022-11-26T13:48:05Z) - Are Missing Links Predictable? An Inferential Benchmark for Knowledge
Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。
各テストサンプルは、トレーニングセットの支持データで予測可能である。
実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文 参考訳(メタデータ) (2021-08-03T09:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。