論文の概要: HAPI: A Large-scale Longitudinal Dataset of Commercial ML API
Predictions
- arxiv url: http://arxiv.org/abs/2209.08443v1
- Date: Sun, 18 Sep 2022 01:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 17:35:31.380008
- Title: HAPI: A Large-scale Longitudinal Dataset of Commercial ML API
Predictions
- Title(参考訳): HAPI: 商用ML API予測の大規模時系列データセット
- Authors: Lingjiao Chen and Zhihua Jin and Sabri Eyuboglu and Christopher R\'e
and Matei Zaharia and James Zou
- Abstract要約: 商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。
各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
- 参考スコア(独自算出の注目度): 35.48276161473216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commercial ML APIs offered by providers such as Google, Amazon and Microsoft
have dramatically simplified ML adoption in many applications. Numerous
companies and academics pay to use ML APIs for tasks such as object detection,
OCR and sentiment analysis. Different ML APIs tackling the same task can have
very heterogeneous performance. Moreover, the ML models underlying the APIs
also evolve over time. As ML APIs rapidly become a valuable marketplace and a
widespread way to consume machine learning, it is critical to systematically
study and compare different APIs with each other and to characterize how APIs
change over time. However, this topic is currently underexplored due to the
lack of data. In this paper, we present HAPI (History of APIs), a longitudinal
dataset of 1,761,417 instances of commercial ML API applications (involving
APIs from Amazon, Google, IBM, Microsoft and other providers) across diverse
tasks including image tagging, speech recognition and text mining from 2020 to
2022. Each instance consists of a query input for an API (e.g., an image or
text) along with the API's output prediction/annotation and confidence scores.
HAPI is the first large-scale dataset of ML API usages and is a unique resource
for studying ML-as-a-service (MLaaS). As examples of the types of analyses that
HAPI enables, we show that ML APIs' performance change substantially over
time--several APIs' accuracies dropped on specific benchmark datasets. Even
when the API's aggregate performance stays steady, its error modes can shift
across different subtypes of data between 2020 and 2022. Such changes can
substantially impact the entire analytics pipelines that use some ML API as a
component. We further use HAPI to study commercial APIs' performance
disparities across demographic subgroups over time. HAPI can stimulate more
research in the growing field of MLaaS.
- Abstract(参考訳): Google、Amazon、Microsoftなどのプロバイダが提供する商用ML APIは、多くのアプリケーションでMLの採用を劇的に単純化した。
多数の企業や学者が、オブジェクト検出、ocr、感情分析などのタスクにml apiを使用するために支払う。
同じタスクに取り組む異なるML APIは、非常に異質なパフォーマンスを持つ。
さらに、APIを支えるMLモデルも時間とともに進化します。
ML APIは急速に価値あるマーケットプレースになり、機械学習を広く利用するようになるため、さまざまなAPIを体系的に研究し、比較し、時間とともにAPIがどのように変化するかを特徴付けることが重要です。
しかし、このトピックはデータ不足のため、現在あまり探索されていない。
本稿では,HAPI(History of API)という,商用ML APIアプリケーション(Amazon,Google,IBM,MicrosoftなどのプロバイダのAPIを含む)の1,761,417の時系列データセットを,画像タグ付けや音声認識,テキストマイニングなど,さまざまなタスクにわたって紹介する。
各インスタンスは、API(例えば、画像やテキスト)に対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
HAPIはML API使用量の最初の大規模データセットであり、ML-as-a-service(MLaaS)を研究するためのユニークなリソースである。
HAPIが実現した分析のタイプとして、ML APIのパフォーマンスが、時間とともに大幅に変化していることが示される。
APIの集約パフォーマンスが安定している場合でも、エラーモードは2020年から2022年の間に、さまざまなサブタイプのデータに移行することができる。
このような変更は、ML APIをコンポーネントとして使用する分析パイプライン全体に大きな影響を与える可能性がある。
さらに、HAPIを使用して、時間とともに人口構成サブグループ間での商用APIのパフォーマンス格差を調査します。
HAPIはMLaaSの成長分野におけるさらなる研究を促進することができる。
関連論文リスト
- SEAL: Suite for Evaluating API-use of LLMs [1.2528321519119252]
SEALは、現実世界のAPI使用時に大きな言語モデルを評価するように設計されたエンドツーエンドのテストベッドである。
既存のベンチマークを標準化し、API検索と計画をテストするエージェントシステムを統合し、リアルタイムAPIの不安定性に対処する。
論文 参考訳(メタデータ) (2024-09-23T20:16:49Z) - A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。
大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文 参考訳(メタデータ) (2024-09-20T03:12:35Z) - WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment [49.00213183302225]
本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。
大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
論文 参考訳(メタデータ) (2024-07-10T15:52:44Z) - A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。
ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。
その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2024-05-24T02:44:14Z) - SpeCrawler: Generating OpenAPI Specifications from API Documentation
Using Large Language Models [8.372941103284774]
SpeCrawlerは、さまざまなAPIドキュメントからOpenAPI仕様を生成する包括的なシステムである。
本稿では,実証的証拠とケーススタディに支えられたSpeCrawlerの方法論について考察する。
論文 参考訳(メタデータ) (2024-02-18T15:33:24Z) - APICom: Automatic API Completion via Prompt Learning and Adversarial
Training-based Data Augmentation [6.029137544885093]
APIレコメンデーションは、開発者が多数の候補APIの中で必要なAPIを見つけるのを支援するプロセスである。
これまでの研究では、主にAPIレコメンデーションをレコメンデーションタスクとしてモデル化していた。
ニューラルネットワーク翻訳研究領域に動機づけられたこの問題を生成タスクとしてモデル化することができる。
提案手法は,プロンプト学習に基づく新しいアプローチAPIComを提案し,そのプロンプトに応じてクエリに関連するAPIを生成する。
論文 参考訳(メタデータ) (2023-09-13T15:31:50Z) - Continual Learning From a Stream of APIs [90.41825351073908]
継続学習(CL)は、以前のタスクを忘れずに新しいタスクを学習することを目的としている。
既存のCLメソッドは大量の生データを必要とするが、著作権上の考慮とプライバシー上のリスクのために利用できないことが多い。
本稿では,データ効率CL (DECL-APIs) とデータフリーCL (DFCL-APIs) の2つの実践的yet-novel CL設定について考察する。
論文 参考訳(メタデータ) (2023-08-31T11:16:00Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Improving the Learnability of Machine Learning APIs by Semi-Automated
API Wrapping [0.0]
学習や使用が容易なAPIを作成するという課題に,特に初心者が対処しています。
広く使われているML API skl のこの問題について検討する。
クライアントプログラムに影響を与えることなく、排除できるAPIの未使用部分と明らかに役に立たない部分を特定します。
論文 参考訳(メタデータ) (2022-03-29T12:42:05Z) - Did the Model Change? Efficiently Assessing Machine Learning API Shifts [24.342984907651505]
機械学習(ML)予測APIはますます広く使われている。
モデル更新や再トレーニングのために、時間とともに変更することも可能だ。
MLモデルがどのように変更されたかは、ユーザにとって明確ではないことが多い。
論文 参考訳(メタデータ) (2021-07-29T17:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。