論文の概要: OpenPerf: A Benchmarking Framework for the Sustainable Development of
the Open-Source Ecosystem
- arxiv url: http://arxiv.org/abs/2311.15212v1
- Date: Sun, 26 Nov 2023 07:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:44:39.005316
- Title: OpenPerf: A Benchmarking Framework for the Sustainable Development of
the Open-Source Ecosystem
- Title(参考訳): OpenPerf: オープンソースエコシステムの持続可能な開発のためのベンチマークフレームワーク
- Authors: Fenglin Bi, Fanyu Han, Shengyu Zhao, Jinlu Li, Yanbin Zhang, Wei Wang
- Abstract要約: OpenPerfは、オープンソースエコシステムの持続可能な開発のために設計されたベンチマークフレームワークである。
データサイエンスタスクのベンチマークが3つ、インデックスベースのベンチマークが2つ、標準ベンチマークが1つ実装されています。
私たちは、堅牢なデータ管理、ツール統合、ユーザインターフェース機能を提供するOpenPerf用の包括的なツールキットを開発しました。
- 参考スコア(独自算出の注目度): 6.188178422139467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarking involves designing scientific test methods, tools, and
frameworks to quantitatively and comparably assess specific performance
indicators of certain test subjects. With the development of artificial
intelligence, AI benchmarking datasets such as ImageNet and DataPerf have
gradually become consensus standards in both academic and industrial fields.
However, constructing a benchmarking framework remains a significant challenge
in the open-source domain due to the diverse range of data types, the wide
array of research issues, and the intricate nature of collaboration networks.
This paper introduces OpenPerf, a benchmarking framework designed for the
sustainable development of the open-source ecosystem. This framework defines 9
task benchmarking tasks in the open-source research, encompassing 3 data types:
time series, text, and graphics, and addresses 6 research problems including
regression, classification, recommendation, ranking, network building, and
anomaly detection. Based on the above tasks, we implemented 3 data science task
benchmarks, 2 index-based benchmarks, and 1 standard benchmark. Notably, the
index-based benchmarks have been adopted by the China Electronics
Standardization Institute as evaluation criteria for open-source community
governance. Additionally, we have developed a comprehensive toolkit for
OpenPerf, which not only offers robust data management, tool integration, and
user interface capabilities but also adopts a Benchmarking-as-a-Service (BaaS)
model to serve academic institutions, industries, and foundations. Through its
application in renowned companies and institutions such as Alibaba, Ant Group,
and East China Normal University, we have validated OpenPerf's pivotal role in
the healthy evolution of the open-source ecosystem.
- Abstract(参考訳): ベンチマークには、特定のテスト対象の特定のパフォーマンス指標を定量的かつ比較的に評価するための、科学的テスト方法、ツール、フレームワークを設計することが含まれる。
人工知能の開発により、imagenetやdataperfといったaiベンチマークデータセットは、学術分野と産業分野の両方で徐々にコンセンサス標準になっている。
しかし、ベンチマークフレームワークの構築は、さまざまなデータタイプ、幅広い研究課題、そしてコラボレーションネットワークの複雑な性質のために、オープンソースドメインにおいて依然として重要な課題である。
本稿では,オープンソースエコシステムの持続可能な開発を目的としたベンチマークフレームワークであるOpenPerfを紹介する。
このフレームワークは、オープンソースの研究で9つのタスクベンチマークタスクを定義し、時系列、テキスト、グラフィックという3つのデータタイプを包含し、回帰、分類、推奨、ランキング、ネットワーク構築、異常検出を含む6つの研究問題に対処する。
上記のタスクに基づいて、3つのデータサイエンスタスクベンチマーク、2つのインデックスベースのベンチマーク、1つの標準ベンチマークを実装した。
特に、インデックスベースのベンチマークは、オープンソースコミュニティガバナンスの評価基準として、China Electronics Standardization Instituteによって採用されている。
さらに私たちは,堅牢なデータ管理,ツール統合,ユーザインターフェース機能を提供するだけでなく,学術機関や産業,財団にサービスを提供するためにbenchmarking-as-a-service(baas)モデルも採用する,openperf用の包括的なツールキットを開発した。
Alibaba、Ant Group、East China Normal Universityといった著名な企業や機関に適用することで、オープンソースエコシステムの健全な進化におけるOpenPerfの重要な役割を検証しました。
関連論文リスト
- DataSciBench: An LLM Agent Benchmark for Data Science [33.3811507234528]
DataSciBenchは、データサイエンスにおけるLarge Language Model(LLM)の機能を評価するためのベンチマークである。
我々は、グラウンド・真実(GT)を生成し、評価指標を検証するための半自動パイプラインを開発した。
我々は、各コード実行結果を評価する革新的なTask-Function-Codeフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T17:31:51Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。