Fugu-MT 論文翻訳(概要): OpenPerf: A Benchmarking Framework for the Sustainable Development of the Open-Source Ecosystem

論文の概要: OpenPerf: A Benchmarking Framework for the Sustainable Development of the Open-Source Ecosystem

arxiv url: http://arxiv.org/abs/2311.15212v1
Date: Sun, 26 Nov 2023 07:01:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 18:44:39.005316
Title: OpenPerf: A Benchmarking Framework for the Sustainable Development of the Open-Source Ecosystem
Title（参考訳）: OpenPerf: オープンソースエコシステムの持続可能な開発のためのベンチマークフレームワーク
Authors: Fenglin Bi, Fanyu Han, Shengyu Zhao, Jinlu Li, Yanbin Zhang, Wei Wang
Abstract要約: OpenPerfは、オープンソースエコシステムの持続可能な開発のために設計されたベンチマークフレームワークである。データサイエンスタスクのベンチマークが3つ、インデックスベースのベンチマークが2つ、標準ベンチマークが1つ実装されています。私たちは、堅牢なデータ管理、ツール統合、ユーザインターフェース機能を提供するOpenPerf用の包括的なツールキットを開発しました。
参考スコア（独自算出の注目度）: 6.188178422139467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benchmarking involves designing scientific test methods, tools, and frameworks to quantitatively and comparably assess specific performance indicators of certain test subjects. With the development of artificial intelligence, AI benchmarking datasets such as ImageNet and DataPerf have gradually become consensus standards in both academic and industrial fields. However, constructing a benchmarking framework remains a significant challenge in the open-source domain due to the diverse range of data types, the wide array of research issues, and the intricate nature of collaboration networks. This paper introduces OpenPerf, a benchmarking framework designed for the sustainable development of the open-source ecosystem. This framework defines 9 task benchmarking tasks in the open-source research, encompassing 3 data types: time series, text, and graphics, and addresses 6 research problems including regression, classification, recommendation, ranking, network building, and anomaly detection. Based on the above tasks, we implemented 3 data science task benchmarks, 2 index-based benchmarks, and 1 standard benchmark. Notably, the index-based benchmarks have been adopted by the China Electronics Standardization Institute as evaluation criteria for open-source community governance. Additionally, we have developed a comprehensive toolkit for OpenPerf, which not only offers robust data management, tool integration, and user interface capabilities but also adopts a Benchmarking-as-a-Service (BaaS) model to serve academic institutions, industries, and foundations. Through its application in renowned companies and institutions such as Alibaba, Ant Group, and East China Normal University, we have validated OpenPerf's pivotal role in the healthy evolution of the open-source ecosystem.
Abstract（参考訳）: ベンチマークには、特定のテスト対象の特定のパフォーマンス指標を定量的かつ比較的に評価するための、科学的テスト方法、ツール、フレームワークを設計することが含まれる。人工知能の開発により、imagenetやdataperfといったaiベンチマークデータセットは、学術分野と産業分野の両方で徐々にコンセンサス標準になっている。しかし、ベンチマークフレームワークの構築は、さまざまなデータタイプ、幅広い研究課題、そしてコラボレーションネットワークの複雑な性質のために、オープンソースドメインにおいて依然として重要な課題である。本稿では,オープンソースエコシステムの持続可能な開発を目的としたベンチマークフレームワークであるOpenPerfを紹介する。このフレームワークは、オープンソースの研究で9つのタスクベンチマークタスクを定義し、時系列、テキスト、グラフィックという3つのデータタイプを包含し、回帰、分類、推奨、ランキング、ネットワーク構築、異常検出を含む6つの研究問題に対処する。上記のタスクに基づいて、3つのデータサイエンスタスクベンチマーク、2つのインデックスベースのベンチマーク、1つの標準ベンチマークを実装した。特に、インデックスベースのベンチマークは、オープンソースコミュニティガバナンスの評価基準として、China Electronics Standardization Instituteによって採用されている。さらに私たちは,堅牢なデータ管理,ツール統合,ユーザインターフェース機能を提供するだけでなく,学術機関や産業,財団にサービスを提供するためにbenchmarking-as-a-service(baas)モデルも採用する,openperf用の包括的なツールキットを開発した。 Alibaba、Ant Group、East China Normal Universityといった著名な企業や機関に適用することで、オープンソースエコシステムの健全な進化におけるOpenPerfの重要な役割を検証しました。

関連論文リスト

DMind Benchmark: The First Comprehensive Benchmark for LLM Evaluation in the Web3 Domain [4.419596289222511]
DMind Benchmarkは、9つの主要なカテゴリにまたがる大規模言語モデル(LLM)を体系的にテストする新しいフレームワークである。 DMind Benchmarkは、ドメイン固有の主観的タスクを取り入れることで、従来の複数の選択の質問を越えている。我々はDMind Benchmarkで15の人気のあるLCMを評価し、Web3固有の推論とアプリケーションの性能ギャップを明らかにする。
論文参考訳（メタデータ） (2025-04-18T16:40:39Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文参考訳（メタデータ） (2024-10-31T17:04:59Z)
InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文参考訳（メタデータ） (2024-07-08T22:06:09Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文参考訳（メタデータ） (2024-06-13T00:59:55Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)
A Benchmarking Study of Embedding-based Entity Alignment for Knowledge Graphs [30.296238600596997]
エンティティアライメントは、同じ現実世界のオブジェクトを参照する異なる知識グラフ内のエンティティを探します。 KG埋め込みの最近の進歩は、埋め込みに基づくエンティティアライメントの出現を示唆している。我々は,最近の埋め込み型エンティティアライメントアプローチを23回調査し,その技術と特徴に基づいて分類した。
論文参考訳（メタデータ） (2020-03-10T05:32:06Z)
Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。 GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文参考訳（メタデータ） (2020-03-02T15:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。