論文の概要: HAPI: A Large-scale Longitudinal Dataset of Commercial ML API
Predictions
- arxiv url: http://arxiv.org/abs/2209.08443v1
- Date: Sun, 18 Sep 2022 01:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 17:35:31.380008
- Title: HAPI: A Large-scale Longitudinal Dataset of Commercial ML API
Predictions
- Title(参考訳): HAPI: 商用ML API予測の大規模時系列データセット
- Authors: Lingjiao Chen and Zhihua Jin and Sabri Eyuboglu and Christopher R\'e
and Matei Zaharia and James Zou
- Abstract要約: 商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。
各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
- 参考スコア(独自算出の注目度): 35.48276161473216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commercial ML APIs offered by providers such as Google, Amazon and Microsoft
have dramatically simplified ML adoption in many applications. Numerous
companies and academics pay to use ML APIs for tasks such as object detection,
OCR and sentiment analysis. Different ML APIs tackling the same task can have
very heterogeneous performance. Moreover, the ML models underlying the APIs
also evolve over time. As ML APIs rapidly become a valuable marketplace and a
widespread way to consume machine learning, it is critical to systematically
study and compare different APIs with each other and to characterize how APIs
change over time. However, this topic is currently underexplored due to the
lack of data. In this paper, we present HAPI (History of APIs), a longitudinal
dataset of 1,761,417 instances of commercial ML API applications (involving
APIs from Amazon, Google, IBM, Microsoft and other providers) across diverse
tasks including image tagging, speech recognition and text mining from 2020 to
2022. Each instance consists of a query input for an API (e.g., an image or
text) along with the API's output prediction/annotation and confidence scores.
HAPI is the first large-scale dataset of ML API usages and is a unique resource
for studying ML-as-a-service (MLaaS). As examples of the types of analyses that
HAPI enables, we show that ML APIs' performance change substantially over
time--several APIs' accuracies dropped on specific benchmark datasets. Even
when the API's aggregate performance stays steady, its error modes can shift
across different subtypes of data between 2020 and 2022. Such changes can
substantially impact the entire analytics pipelines that use some ML API as a
component. We further use HAPI to study commercial APIs' performance
disparities across demographic subgroups over time. HAPI can stimulate more
research in the growing field of MLaaS.
- Abstract(参考訳): Google、Amazon、Microsoftなどのプロバイダが提供する商用ML APIは、多くのアプリケーションでMLの採用を劇的に単純化した。
多数の企業や学者が、オブジェクト検出、ocr、感情分析などのタスクにml apiを使用するために支払う。
同じタスクに取り組む異なるML APIは、非常に異質なパフォーマンスを持つ。
さらに、APIを支えるMLモデルも時間とともに進化します。
ML APIは急速に価値あるマーケットプレースになり、機械学習を広く利用するようになるため、さまざまなAPIを体系的に研究し、比較し、時間とともにAPIがどのように変化するかを特徴付けることが重要です。
しかし、このトピックはデータ不足のため、現在あまり探索されていない。
本稿では,HAPI(History of API)という,商用ML APIアプリケーション(Amazon,Google,IBM,MicrosoftなどのプロバイダのAPIを含む)の1,761,417の時系列データセットを,画像タグ付けや音声認識,テキストマイニングなど,さまざまなタスクにわたって紹介する。
各インスタンスは、API(例えば、画像やテキスト)に対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
HAPIはML API使用量の最初の大規模データセットであり、ML-as-a-service(MLaaS)を研究するためのユニークなリソースである。
HAPIが実現した分析のタイプとして、ML APIのパフォーマンスが、時間とともに大幅に変化していることが示される。
APIの集約パフォーマンスが安定している場合でも、エラーモードは2020年から2022年の間に、さまざまなサブタイプのデータに移行することができる。
このような変更は、ML APIをコンポーネントとして使用する分析パイプライン全体に大きな影響を与える可能性がある。
さらに、HAPIを使用して、時間とともに人口構成サブグループ間での商用APIのパフォーマンス格差を調査します。
HAPIはMLaaSの成長分野におけるさらなる研究を促進することができる。
関連論文リスト
- SpeCrawler: Generating OpenAPI Specifications from API Documentation
Using Large Language Models [8.372941103284774]
SpeCrawlerは、さまざまなAPIドキュメントからOpenAPI仕様を生成する包括的なシステムである。
本稿では,実証的証拠とケーススタディに支えられたSpeCrawlerの方法論について考察する。
論文 参考訳(メタデータ) (2024-02-18T15:33:24Z) - APICom: Automatic API Completion via Prompt Learning and Adversarial
Training-based Data Augmentation [6.029137544885093]
APIレコメンデーションは、開発者が多数の候補APIの中で必要なAPIを見つけるのを支援するプロセスである。
これまでの研究では、主にAPIレコメンデーションをレコメンデーションタスクとしてモデル化していた。
ニューラルネットワーク翻訳研究領域に動機づけられたこの問題を生成タスクとしてモデル化することができる。
提案手法は,プロンプト学習に基づく新しいアプローチAPIComを提案し,そのプロンプトに応じてクエリに関連するAPIを生成する。
論文 参考訳(メタデータ) (2023-09-13T15:31:50Z) - Continual Learning From a Stream of APIs [90.41825351073908]
継続学習(CL)は、以前のタスクを忘れずに新しいタスクを学習することを目的としている。
既存のCLメソッドは大量の生データを必要とするが、著作権上の考慮とプライバシー上のリスクのために利用できないことが多い。
本稿では,データ効率CL (DECL-APIs) とデータフリーCL (DFCL-APIs) の2つの実践的yet-novel CL設定について考察する。
論文 参考訳(メタデータ) (2023-08-31T11:16:00Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs [84.45284695156771]
API-Bankは、ツール強化された大規模言語モデルのための画期的なベンチマークである。
73のAPIツールからなる実行評価システムを開発した。
我々は、1,000の異なるドメインにまたがる2,138のAPIから1,888のツール使用対話を含む総合的なトレーニングセットを構築した。
論文 参考訳(メタデータ) (2023-04-14T14:05:32Z) - Improving the Learnability of Machine Learning APIs by Semi-Automated
API Wrapping [0.0]
学習や使用が容易なAPIを作成するという課題に,特に初心者が対処しています。
広く使われているML API skl のこの問題について検討する。
クライアントプログラムに影響を与えることなく、排除できるAPIの未使用部分と明らかに役に立たない部分を特定します。
論文 参考訳(メタデータ) (2022-03-29T12:42:05Z) - Did the Model Change? Efficiently Assessing Machine Learning API Shifts [24.342984907651505]
機械学習(ML)予測APIはますます広く使われている。
モデル更新や再トレーニングのために、時間とともに変更することも可能だ。
MLモデルがどのように変更されたかは、ユーザにとって明確ではないことが多い。
論文 参考訳(メタデータ) (2021-07-29T17:41:53Z) - Simple Transparent Adversarial Examples [65.65977217108659]
本研究は,ロバスト性を評価するための簡易な方法として,秘密の埋め込みと透明な敵の例を紹介した。
その結果、ハイリスクなアプリケーションにAPIが使用されるという深刻な脅威が生じる。
論文 参考訳(メタデータ) (2021-05-20T11:54:26Z) - FrugalML: How to Use ML Prediction APIs More Accurately and Cheaply [36.94826820536239]
我々はFrugalMLを提案する。FrugalMLは、異なるデータ上で各APIの長所と短所を共同で学習する、原則化されたフレームワークである。
理論解析により,FrugalMLを効率よくするために,定式化における自然の空間性を利用することが可能であることが示唆された。
さまざまなタスクにおいて、FrugalMLは、最高の単一APIの精度を一致させながら、最大90%のコスト削減を実現し、最高のAPIのコストを一致させながら、最大5%の精度を達成できる。
論文 参考訳(メタデータ) (2020-06-12T23:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。