論文の概要: Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for
Everyone
- arxiv url: http://arxiv.org/abs/2110.05802v1
- Date: Tue, 12 Oct 2021 07:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 15:38:28.753189
- Title: Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for
Everyone
- Title(参考訳): codabench: フレキシブルで使いやすい、誰でも再現可能なベンチマーク
- Authors: Zhen Xu, Huan Zhao, Wei-Wei Tu, Magali Richard, Sergio Escalera,
Isabelle Guyon
- Abstract要約: Codabenchは、データセットやタスクに対して、アルゴリズムやソフトウェアエージェントをベンチマークするための、オープンソースでコミュニティ主導のプラットフォームです。
Codabenchのパブリックインスタンスは誰でも無料で公開されている。
- 参考スコア(独自算出の注目度): 45.673814384050004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining standardized crowdsourced benchmark of computational methods is a
major issue in scientific communities. Dedicated frameworks enabling fair
continuous benchmarking in a unified environment are yet to be developed. Here
we introduce Codabench, an open-sourced, community-driven platform for
benchmarking algorithms or software agents versus datasets or tasks. A public
instance of Codabench is open to everyone, free of charge, and allows benchmark
organizers to compare fairly submissions, under the same setting (software,
hardware, data, algorithms), with custom protocols and data formats. Codabench
has unique features facilitating the organization of benchmarks flexibly,
easily and reproducibly. Firstly, it supports code submission and data
submission for testing on dedicated compute workers, which can be supplied by
the benchmark organizers. This makes the system scalable, at low cost for the
platform providers. Secondly, Codabench benchmarks are created from
self-contained bundles, which are zip files containing a full description of
the benchmark in a configuration file (following a well-defined schema),
documentation pages, data, ingestion and scoring programs, making benchmarks
reusable and portable. The Codabench documentation includes many examples of
bundles that can serve as templates. Thirdly, Codabench uses dockers for each
task's running environment to make results reproducible. Codabench has been
used internally and externally with more than 10 applications during the past 6
months. As illustrative use cases, we introduce 4 diverse benchmarks covering
Graph Machine Learning, Cancer Heterogeneity, Clinical Diagnosis and
Reinforcement Learning.
- Abstract(参考訳): 計算手法の標準化されたクラウドソースベンチマークは、科学コミュニティにおいて大きな問題である。
統一環境での公正な継続的ベンチマークを可能にする専用フレームワークはまだ開発されていない。
ここでは、アルゴリズムやソフトウェアエージェントをデータセットやタスクに対してベンチマークするための、オープンソースでコミュニティ駆動のプラットフォームであるcodabenchを紹介します。
Codabenchのパブリックインスタンスは誰でも無料で公開されており、ベンチマークのオーガナイザは同じ設定(ソフトウェア、ハードウェア、データ、アルゴリズム)とカスタムプロトコルとデータフォーマットを比較することができる。
Codabenchには、フレキシブル、簡単、再現可能なベンチマークの編成を容易にするユニークな機能がある。
まず、専用のコンピュータワーカーのテストのためのコード提出とデータ提出をサポートし、ベンチマークオーガナイザが提供できる。
これによってシステムのスケーラビリティが向上し、プラットフォームプロバイダは低コストになる。
次に、codabenchベンチマークは、(明確に定義されたスキーマに従う)構成ファイル、ドキュメントページ、データ、取り込みおよびスコア付けプログラム、ベンチマークの再利用性と可搬性を備えたzipファイルである、自己完結したバンドルから生成される。
Codabenchのドキュメントには、テンプレートとして使えるバンドルの例が多数含まれている。
第3に、Codabenchは各タスクの実行環境のドッキングを使って結果を再現する。
Codabenchは、過去6ヶ月で10以上のアプリケーションで、内部および外部で使用されている。
実例として,グラフ機械学習,癌異質性,臨床診断,強化学習の4つのベンチマークを紹介する。
関連論文リスト
- RBoard: A Unified Platform for Reproducible and Reusable Recommender System Benchmarks [0.4312340306206883]
RBoardは推奨システムのベンチマークのための新しいフレームワークである。
CTR予測やTop-Nレコメンデーションなど、さまざまなレコメンデーションタスクをベンチマークするための総合的なプラットフォームを提供する。
このフレームワークは各タスク内の複数のデータセットにまたがるアルゴリズムを評価し、総合的なパフォーマンス評価の結果を集約する。
論文 参考訳(メタデータ) (2024-09-09T11:35:35Z) - Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。
その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。
1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。
これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文 参考訳(メタデータ) (2024-07-29T06:13:28Z) - Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench [15.565644819269803]
過度に見落とされた方法論的選択がベンチマークコンセンサステスト(BAT)の結果にどのように影響するかを示す。
我々は、BAT用のピソンパッケージであるBenchBenchを紹介し、ベンチマークを仲間を使って評価するためのメタベンチマークであるBenchBench- Leaderboardをリリースする。
論文 参考訳(メタデータ) (2024-07-18T17:00:23Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - PruningBench: A Comprehensive Benchmark of Structural Pruning [50.23493036025595]
textitPruningBenchと呼ばれる、構造的プルーニングのための最初の包括的なベンチマークを提示する。
PruningBenchは、多様な構造的プルーニング技術の有効性を評価するために、統一的で一貫したフレームワークを使用している。
将来の刈り取り方法の実装を容易にするための実装が容易なインターフェースを提供し、その後の研究者が自身の作業をリーダボードに組み込めるようにします。
論文 参考訳(メタデータ) (2024-06-18T06:37:26Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with
Distributed Stream Processing Frameworks [1.4374467687356276]
本稿では、最新のストリーム処理フレームワークの性能を評価するための新しいベンチマークであるShuffleBenchを紹介する。
ShuffleBenchは、大規模なクラウドオブザーバビリティプラットフォームのほぼリアルタイム分析の要件にインスパイアされている。
その結果,Herzelcastは低レイテンシでデータストリームを処理するのに対して,Flinkは最高スループットを実現していることがわかった。
論文 参考訳(メタデータ) (2024-03-07T15:06:24Z) - BeGin: Extensive Benchmark Scenarios and An Easy-to-use Framework for Graph Continual Learning [18.32208249344985]
連続学習(英: Continual Learning, CL)とは、絶え間なく一連のタスクを学習する過程である。
グラフデータ(グラフCL)は、標準的な実験的な設定が欠如しているため、比較的過小評価されている。
我々は,グラフCLのための容易かつ愚かなフレームワークであるBeGinを開発した。
論文 参考訳(メタデータ) (2022-11-26T13:48:05Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - Are Missing Links Predictable? An Inferential Benchmark for Knowledge
Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。
各テストサンプルは、トレーニングセットの支持データで予測可能である。
実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文 参考訳(メタデータ) (2021-08-03T09:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。