論文の概要: AIBench Scenario: Scenario-distilling AI Benchmarking
- arxiv url: http://arxiv.org/abs/2005.03459v4
- Date: Sun, 5 Sep 2021 13:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 06:07:15.465465
- Title: AIBench Scenario: Scenario-distilling AI Benchmarking
- Title(参考訳): AIBenchシナリオ:シナリオを蒸留するAIベンチマーク
- Authors: Wanling Gao, Fei Tang, Jianfeng Zhan, Xu Wen, Lei Wang, Zheng Cao,
Chuanxin Lan, Chunjie Luo, Xiaoli Liu, Zihan Jiang
- Abstract要約: 実世界のアプリケーションシナリオを非巡回グラフベースモデルとして定式化する。
シナリオベンチマークと呼ばれる本質的なAIタスクと非AIタスクの順列に抽出するルールを提案する。
実世界の2つのアプリケーションシナリオのプロキシとして,このフレームワークに基づいた2つのインターネットサービスAIシナリオベンチマークを実装した。
- 参考スコア(独自算出の注目度): 8.909947747424672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern real-world application scenarios like Internet services consist of a
diversity of AI and non-AI modules with huge code sizes and long and
complicated execution paths, which raises serious benchmarking or evaluating
challenges. Using AI components or micro benchmarks alone can lead to
error-prone conclusions. This paper presents a methodology to attack the above
challenge. We formalize a real-world application scenario as a Directed Acyclic
Graph-based model and propose the rules to distill it into a permutation of
essential AI and non-AI tasks, which we call a scenario benchmark. Together
with seventeen industry partners, we extract nine typical scenario benchmarks.
We design and implement an extensible, configurable, and flexible benchmark
framework. We implement two Internet service AI scenario benchmarks based on
the framework as proxies to two real-world application scenarios. We consider
scenario, component, and micro benchmarks as three indispensable parts for
evaluating. Our evaluation shows the advantage of our methodology against using
component or micro AI benchmarks alone. The specifications, source code,
testbed, and results are publicly available from
\url{https://www.benchcouncil.org/aibench/scenario/}.
- Abstract(参考訳): インターネットサービスのような現代の現実世界のアプリケーションシナリオは、AIと非AIモジュールの多様性と、巨大なコードサイズと長く複雑な実行パスで構成される。
AIコンポーネントやマイクロベンチマークのみを使用することで、エラーが発生しやすい結論につながる可能性がある。
本稿では,上記の課題を攻撃する手法を提案する。
我々は,実世界のアプリケーションシナリオを有向非循環グラフベースモデルとして定式化し,本質的なaiタスクと非aiタスクの順列に蒸留するルールを提案する。
17の業界パートナーとともに、9つの典型的なシナリオベンチマークを抽出する。
拡張可能で構成可能で柔軟なベンチマークフレームワークを設計、実装しています。
実世界の2つのアプリケーションシナリオのプロキシとして,このフレームワークに基づいた2つのインターネットサービスAIシナリオベンチマークを実装した。
シナリオ,コンポーネント,マイクロベンチマークを,評価に不可欠な3つの部分として捉えた。
我々の評価は、コンポーネントまたはマイクロAIベンチマークのみを使用する方法の利点を示している。
仕様、ソースコード、テストベッド、結果は \url{https://www.benchcouncil.org/aibench/scenario/} から公開されている。
関連論文リスト
- UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。
研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。
本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:04:53Z) - Alice Benchmarks: Connecting Real World Re-Identification with the
Synthetic [92.02220105679713]
我々は、Aliceベンチマーク、大規模データセット、ベンチマークおよび評価プロトコルを研究コミュニティに導入する。
Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。
実際のターゲットの重要な特徴として、トレーニングセットのクラスタビリティは、実際のドメイン適応テストシナリオに近づくように手動で保証されない。
論文 参考訳(メタデータ) (2023-10-06T17:58:26Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Mystique: Enabling Accurate and Scalable Generation of Production AI
Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。
我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文 参考訳(メタデータ) (2022-12-16T18:46:37Z) - From Multi-agent to Multi-robot: A Scalable Training and Evaluation
Platform for Multi-robot Reinforcement Learning [12.74238738538799]
マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。
これらの手法が実際のシナリオ、特にマルチロボットシステムでどのように機能するかは未だ分かっていない。
本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。
論文 参考訳(メタデータ) (2022-06-20T06:36:45Z) - Addressing the IEEE AV Test Challenge with Scenic and VerifAI [10.221093591444731]
本稿では,IEEE AVテストチャレンジのシミュレーションにおいて,自律走行車(AV)のテストに対する我々の公式なアプローチを要約する。
我々は,知的サイバー物理システムのための形式駆動型シミュレーションに関するこれまでの研究を生かした,系統的なテストフレームワークを実証する。
論文 参考訳(メタデータ) (2021-08-20T04:51:27Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z) - Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。
MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
一般化顔認識評価のためのベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2020-03-17T14:10:30Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。