Fugu-MT 論文翻訳(概要): AIBench: An Agile Domain-specific Benchmarking Methodology and an AI Benchmark Suite

論文の概要: AIBench: An Agile Domain-specific Benchmarking Methodology and an AI Benchmark Suite

arxiv url: http://arxiv.org/abs/2002.07162v1
Date: Mon, 17 Feb 2020 07:29:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-31 13:12:48.250726
Title: AIBench: An Agile Domain-specific Benchmarking Methodology and an AI Benchmark Suite
Title（参考訳）: AIBench: アジャイルドメイン固有のベンチマーク方法論とAIベンチマークスイート
Authors: Wanling Gao, Fei Tang, Jianfeng Zhan, Chuanxin Lan, Chunjie Luo, Lei Wang, Jiahui Dai, Zheng Cao, Xiongwang Xiong, Zihan Jiang, Tianshu Hao, Fanda Fan, Xu Wen, Fan Zhang, Yunyou Huang, Jianan Chen, Mengjia Du, Rui Ren, Chen Zheng, Daoyi Zheng, Haoning Tang, Kunlin Zhan, Biao Wang, Defei Kong, Minghe Yu, Chongkang Tan, Huan Li, Xinhui Tian, Yatao Li, Gang Lu, Junchao Shao, Zhenyu Wang, Xiaoyu Wang, Hainan Ye
Abstract要約: 本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
参考スコア（独自算出の注目度）: 26.820244556465333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Domain-specific software and hardware co-design is encouraging as it is much easier to achieve efficiency for fewer tasks. Agile domain-specific benchmarking speeds up the process as it provides not only relevant design inputs but also relevant metrics, and tools. Unfortunately, modern workloads like Big data, AI, and Internet services dwarf the traditional one in terms of code size, deployment scale, and execution path, and hence raise serious benchmarking challenges. This paper proposes an agile domain-specific benchmarking methodology. Together with seventeen industry partners, we identify ten important end-to-end application scenarios, among which sixteen representative AI tasks are distilled as the AI component benchmarks. We propose the permutations of essential AI and non-AI component benchmarks as end-to-end benchmarks. An end-to-end benchmark is a distillation of the essential attributes of an industry-scale application. We design and implement a highly extensible, configurable, and flexible benchmark framework, on the basis of which, we propose the guideline for building end-to-end benchmarks, and present the first end-to-end Internet service AI benchmark. The preliminary evaluation shows the value of our benchmark suite---AIBench against MLPerf and TailBench for hardware and software designers, micro-architectural researchers, and code developers. The specifications, source code, testbed, and results are publicly available from the web site \url{http://www.benchcouncil.org/AIBench/index.html}.
Abstract（参考訳）: ドメイン固有のソフトウェアとハードウェアの共同設計は、少ないタスクで効率性を達成するのがずっと簡単であるため、奨励しています。アジャイルドメイン固有のベンチマークは、関連する設計インプットだけでなく、関連するメトリクスやツールを提供するため、プロセスをスピードアップします。残念なことに、ビッグデータやAI、インターネットサービスといった現代的なワークロードは、コードサイズ、デプロイメントのスケール、実行パスといった点で従来のワークロードを軽視しています。本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。 17の業界パートナとともに、AIコンポーネントベンチマークとして16の代表的なAIタスクを抽出する10の重要なエンドツーエンドアプリケーションシナリオを特定します。エンドツーエンドのベンチマークとして,必須AIと非AIコンポーネントベンチマークの置換を提案する。エンドツーエンドのベンチマークは、業界規模のアプリケーションの本質的な特性の蒸留である。我々は、非常に拡張性が高く、構成可能で柔軟なベンチマークフレームワークを設計、実装し、それに基づいて、エンドツーエンドのベンチマークを構築するためのガイドラインを提案し、最初のエンドツーエンドのインターネットサービスAIベンチマークを示す。予備評価では、ハードウェアおよびソフトウェアデザイナ、マイクロアーキテクチャ研究者、コード開発者に対するAIBench対MLPerfとTailBenchのベンチマークスイートの価値が示されています。仕様、ソースコード、テストベッド、結果はWebサイト \url{http://www.benchcouncil.org/AIBench/index.html} から公開されている。

関連論文リスト

Deprecating Benchmarks: Criteria and Framework [2.6449913368815516]
ベンチマークを完全にあるいは部分的に非推奨にする時期を決定するための基準と、ベンチマークを非推奨にするフレームワークを提案する。我々の研究は、特にフロンティアモデルにおいて、厳格で高品質な評価に向けたベンチマークの状況を改善することを目的としている。
論文参考訳（メタデータ） (2025-07-08T22:29:06Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文参考訳（メタデータ） (2024-11-20T02:38:24Z)
Benchmarking End-To-End Performance of AI-Based Chip Placement Algorithms [77.71341200638416]
ChiPBenchはAIベースのチップ配置アルゴリズムの有効性を評価するために設計されたベンチマークである。評価のために、さまざまなドメイン(CPU、GPU、マイクロコントローラなど)から20の回路を集めました。その結果, 単点アルゴリズムの中間距離が支配的であったとしても, 最終的なPPA結果は満足できないことがわかった。
論文参考訳（メタデータ） (2024-07-03T03:29:23Z)
ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文参考訳（メタデータ） (2024-06-13T00:59:55Z)
Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文参考訳（メタデータ） (2023-02-09T16:34:30Z)
Mystique: Enabling Accurate and Scalable Generation of Production AI Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。 Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文参考訳（メタデータ） (2022-12-16T18:46:37Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)
Design-Bench: Benchmarks for Data-Driven Offline Model-Based Optimization [82.02008764719896]
ブラックボックスモデルに基づく最適化問題は、タンパク質、DNA配列、航空機、ロボットの設計など、幅広い領域で広く使われている。本稿では,統合評価プロトコルと最近の手法の参照実装を備えたオフラインMBOのためのベンチマークであるDesign-Benchを提案する。私たちのベンチマークには、生物学、材料科学、ロボット工学における現実世界の最適化問題から派生した、多種多様な現実的なタスクが含まれています。
論文参考訳（メタデータ） (2022-02-17T05:33:27Z)
The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文参考訳（メタデータ） (2021-07-14T21:08:30Z)
Integrated Benchmarking and Design for Reproducible and Accessible Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文参考訳（メタデータ） (2020-09-09T15:31:29Z)
AIBench Scenario: Scenario-distilling AI Benchmarking [8.909947747424672]
実世界のアプリケーションシナリオを非巡回グラフベースモデルとして定式化する。シナリオベンチマークと呼ばれる本質的なAIタスクと非AIタスクの順列に抽出するルールを提案する。実世界の2つのアプリケーションシナリオのプロキシとして,このフレームワークに基づいた2つのインターネットサービスAIシナリオベンチマークを実装した。
論文参考訳（メタデータ） (2020-05-06T01:24:25Z)
AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文参考訳（メタデータ） (2020-04-30T11:08:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。