論文の概要: Framing AI System Benchmarking as a Learning Task: FlexBench and the Open MLPerf Dataset
- arxiv url: http://arxiv.org/abs/2509.11413v1
- Date: Sun, 14 Sep 2025 20:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.073189
- Title: Framing AI System Benchmarking as a Learning Task: FlexBench and the Open MLPerf Dataset
- Title(参考訳): 学習課題としてのAIシステムのベンチマーク化: FlexBenchとオープンMLPerfデータセット
- Authors: Grigori Fursin, Daniel Altunay,
- Abstract要約: LLMerfのような既存のAIシステムベンチマークは、急速に進化するAIの状況に追随するのに苦労することが多く、AIシステムのインフォメーション、最適化、共同設計決定をサポートすることが難しい。
モデルはさまざまなデータセット、ソフトウェア、ハードウェアにわたって継続的に評価され、最適化され、精度、レイテンシ、スループット、エネルギー消費、コストといった重要な指標を使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing AI system benchmarks such as MLPerf often struggle to keep pace with the rapidly evolving AI landscape, making it difficult to support informed deployment, optimization, and co-design decisions for AI systems. We suggest that benchmarking itself can be framed as an AI task - one in which models are continuously evaluated and optimized across diverse datasets, software, and hardware, using key metrics such as accuracy, latency, throughput, energy consumption, and cost. To support this perspective, we present FlexBench: a modular extension of the MLPerf LLM inference benchmark, integrated with HuggingFace and designed to provide relevant and actionable insights. Benchmarking results and metadata are collected into an Open MLPerf Dataset, which can be collaboratively curated, extended, and leveraged for predictive modeling and feature engineering. We successfully validated the FlexBench concept through MLPerf Inference submissions, including evaluations of DeepSeek R1 and LLaMA 3.3 on commodity servers. The broader objective is to enable practitioners to make cost-effective AI deployment decisions that reflect their available resources, requirements, and constraints.
- Abstract(参考訳): MLPerfのような既存のAIシステムベンチマークは、急速に進化するAIの状況に追随するのに苦労することが多く、AIシステムのインフォメーション、最適化、共同設計決定をサポートすることが難しい。
モデルはさまざまなデータセット、ソフトウェア、ハードウェアにわたって継続的に評価され、最適化され、精度、レイテンシ、スループット、エネルギー消費、コストといった重要な指標を使用する。
この視点をサポートするために、私たちはFlexBenchを紹介します。 MLPerf LLM推論ベンチマークのモジュール拡張で、HuggingFaceと統合され、関連性があり実行可能な洞察を提供するように設計されています。
ベンチマーク結果とメタデータはOpen MLPerfデータセットに収集されます。
我々は、DeepSeek R1とLLaMA 3.3の評価を含むMLPerf推論によるFlexBenchの概念の検証に成功した。
より広範な目的は、実践者が利用可能なリソース、要件、制約を反映した費用対効果の高いAIデプロイメント決定を可能にすることである。
関連論文リスト
- Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling [0.02091806248191979]
本稿では,演算子のモジュラー解析モデルからなる軽量でモジュラーな解析フレームワークLIFEを紹介する。
LIFEは、量子化、KVキャッシュ圧縮、LoRAアダプタ、チャンクされたプリフィル、異なる注意、演算子融合など、ソフトウェアとモデル最適化の影響を特徴づけている。
我々は,AMD CPU,NPU,iGPU,NVIDIA V100 GPUにおけるLIFEの予測をLlama2-7B変種を用いて検証した。
論文 参考訳(メタデータ) (2025-07-29T03:08:31Z) - Provenance Tracking in Large-Scale Machine Learning Systems [0.0]
y4MLは、W3C PROVとProvProvML標準に準拠したフォーマットでデータを収集するように設計されたツールである。
y4MLはyProvフレームワークと完全に統合されており、ワークフロー管理システムを通じて実行されるタスクの高レベルなペアリングを可能にする。
論文 参考訳(メタデータ) (2025-07-01T14:10:02Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Mystique: Enabling Accurate and Scalable Generation of Production AI
Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。
我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文 参考訳(メタデータ) (2022-12-16T18:46:37Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文 参考訳(メタデータ) (2020-02-19T17:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。