Fugu-MT 論文翻訳(概要): Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for Everyone

論文の概要: Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for Everyone

arxiv url: http://arxiv.org/abs/2110.05802v1
Date: Tue, 12 Oct 2021 07:54:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-13 15:38:28.753189
Title: Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for Everyone
Title（参考訳）: codabench: フレキシブルで使いやすい、誰でも再現可能なベンチマーク
Authors: Zhen Xu, Huan Zhao, Wei-Wei Tu, Magali Richard, Sergio Escalera, Isabelle Guyon
Abstract要約: Codabenchは、データセットやタスクに対して、アルゴリズムやソフトウェアエージェントをベンチマークするための、オープンソースでコミュニティ主導のプラットフォームです。 Codabenchのパブリックインスタンスは誰でも無料で公開されている。
参考スコア（独自算出の注目度）: 45.673814384050004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Obtaining standardized crowdsourced benchmark of computational methods is a major issue in scientific communities. Dedicated frameworks enabling fair continuous benchmarking in a unified environment are yet to be developed. Here we introduce Codabench, an open-sourced, community-driven platform for benchmarking algorithms or software agents versus datasets or tasks. A public instance of Codabench is open to everyone, free of charge, and allows benchmark organizers to compare fairly submissions, under the same setting (software, hardware, data, algorithms), with custom protocols and data formats. Codabench has unique features facilitating the organization of benchmarks flexibly, easily and reproducibly. Firstly, it supports code submission and data submission for testing on dedicated compute workers, which can be supplied by the benchmark organizers. This makes the system scalable, at low cost for the platform providers. Secondly, Codabench benchmarks are created from self-contained bundles, which are zip files containing a full description of the benchmark in a configuration file (following a well-defined schema), documentation pages, data, ingestion and scoring programs, making benchmarks reusable and portable. The Codabench documentation includes many examples of bundles that can serve as templates. Thirdly, Codabench uses dockers for each task's running environment to make results reproducible. Codabench has been used internally and externally with more than 10 applications during the past 6 months. As illustrative use cases, we introduce 4 diverse benchmarks covering Graph Machine Learning, Cancer Heterogeneity, Clinical Diagnosis and Reinforcement Learning.
Abstract（参考訳）: 計算手法の標準化されたクラウドソースベンチマークは、科学コミュニティにおいて大きな問題である。統一環境での公正な継続的ベンチマークを可能にする専用フレームワークはまだ開発されていない。ここでは、アルゴリズムやソフトウェアエージェントをデータセットやタスクに対してベンチマークするための、オープンソースでコミュニティ駆動のプラットフォームであるcodabenchを紹介します。 Codabenchのパブリックインスタンスは誰でも無料で公開されており、ベンチマークのオーガナイザは同じ設定(ソフトウェア、ハードウェア、データ、アルゴリズム)とカスタムプロトコルとデータフォーマットを比較することができる。 Codabenchには、フレキシブル、簡単、再現可能なベンチマークの編成を容易にするユニークな機能がある。まず、専用のコンピュータワーカーのテストのためのコード提出とデータ提出をサポートし、ベンチマークオーガナイザが提供できる。これによってシステムのスケーラビリティが向上し、プラットフォームプロバイダは低コストになる。次に、codabenchベンチマークは、(明確に定義されたスキーマに従う)構成ファイル、ドキュメントページ、データ、取り込みおよびスコア付けプログラム、ベンチマークの再利用性と可搬性を備えたzipファイルである、自己完結したバンドルから生成される。 Codabenchのドキュメントには、テンプレートとして使えるバンドルの例が多数含まれている。第3に、Codabenchは各タスクの実行環境のドッキングを使って結果を再現する。 Codabenchは、過去6ヶ月で10以上のアプリケーションで、内部および外部で使用されている。実例として,グラフ機械学習,癌異質性,臨床診断,強化学習の4つのベンチマークを紹介する。

関連論文リスト

BenchMake: Turn any scientific data set into a reproducible benchmark [0.0]
計算科学におけるベンチマークセットの相対的な希薄さは、新しいイノベーションを評価するのを困難にしている。新しいツールは、オープンに利用可能な科学データセットの数を、コミュニティがアクセス可能なベンチマークに変えるために開発されている。
論文参考訳（メタデータ） (2025-06-29T22:56:48Z)
Bencher: Simple and Reproducible Benchmarking for Black-Box Optimization [5.703483582960509]
Bencherはブラックボックス最適化のためのモジュラーベンチマークフレームワークである。各ベンチマークは、独自の仮想Python環境で分離され、統一されたバージョンに依存しないリモートプロシージャコール(RPC)インターフェースを介してアクセスされる。 BencherはローカルまたはリモートでDocker経由で、あるいはSingularity経由で高性能なコンピューティングクラスタにデプロイできる。
論文参考訳（メタデータ） (2025-05-27T15:18:58Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文参考訳（メタデータ） (2025-01-18T09:51:57Z)
RBoard: A Unified Platform for Reproducible and Reusable Recommender System Benchmarks [0.4312340306206883]
RBoardは推奨システムのベンチマークのための新しいフレームワークである。 CTR予測やTop-Nレコメンデーションなど、さまざまなレコメンデーションタスクをベンチマークするための総合的なプラットフォームを提供する。このフレームワークは各タスク内の複数のデータセットにまたがるアルゴリズムを評価し、総合的なパフォーマンス評価の結果を集約する。
論文参考訳（メタデータ） (2024-09-09T11:35:35Z)
Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。 1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文参考訳（メタデータ） (2024-07-29T06:13:28Z)
Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench [15.565644819269803]
過度に見落とされた方法論的選択がベンチマークコンセンサステスト(BAT)の結果にどのように影響するかを示す。我々は、BAT用のピソンパッケージであるBenchBenchを紹介し、ベンチマークを仲間を使って評価するためのメタベンチマークであるBenchBench- Leaderboardをリリースする。
論文参考訳（メタデータ） (2024-07-18T17:00:23Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
Benchmarking Predictive Coding Networks -- Made Simple [48.652114040426625]
機械学習における予測符号化ネットワーク(PCN)の効率性とスケーラビリティの問題に取り組む。そこで我々は,PCXと呼ばれる,パフォーマンスと簡易性を重視したライブラリを提案する。我々は,PCNの既存アルゴリズムと,生物工学的な深層学習コミュニティで普及している他の手法を併用して,このようなベンチマークを広範囲に実施する。
論文参考訳（メタデータ） (2024-07-01T10:33:44Z)
PruningBench: A Comprehensive Benchmark of Structural Pruning [50.23493036025595]
textitPruningBenchと呼ばれる、構造的プルーニングのための最初の包括的なベンチマークを提示する。 PruningBenchは、多様な構造的プルーニング技術の有効性を評価するために、統一的で一貫したフレームワークを使用している。将来の刈り取り方法の実装を容易にするための実装が容易なインターフェースを提供し、その後の研究者が自身の作業をリーダボードに組み込めるようにします。
論文参考訳（メタデータ） (2024-06-18T06:37:26Z)
Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文参考訳（メタデータ） (2024-06-17T14:58:29Z)
ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with Distributed Stream Processing Frameworks [1.4374467687356276]
本稿では、最新のストリーム処理フレームワークの性能を評価するための新しいベンチマークであるShuffleBenchを紹介する。 ShuffleBenchは、大規模なクラウドオブザーバビリティプラットフォームのほぼリアルタイム分析の要件にインスパイアされている。その結果,Herzelcastは低レイテンシでデータストリームを処理するのに対して,Flinkは最高スループットを実現していることがわかった。
論文参考訳（メタデータ） (2024-03-07T15:06:24Z)
BeGin: Extensive Benchmark Scenarios and An Easy-to-use Framework for Graph Continual Learning [18.32208249344985]
連続学習(英: Continual Learning, CL)とは、絶え間なく一連のタスクを学習する過程である。グラフデータ(グラフCL)は、標準的な実験的な設定が欠如しているため、比較的過小評価されている。我々は,グラフCLのための容易かつ愚かなフレームワークであるBeGinを開発した。
論文参考訳（メタデータ） (2022-11-26T13:48:05Z)
WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文参考訳（メタデータ） (2021-09-23T13:47:16Z)
Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。各テストサンプルは、トレーニングセットの支持データで予測可能である。実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文参考訳（メタデータ） (2021-08-03T09:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。