Fugu-MT 論文翻訳(概要): HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions

論文の概要: HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions

arxiv url: http://arxiv.org/abs/2209.08443v1
Date: Sun, 18 Sep 2022 01:52:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-20 17:35:31.380008
Title: HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions
Title（参考訳）: HAPI: 商用ML API予測の大規模時系列データセット
Authors: Lingjiao Chen and Zhihua Jin and Sabri Eyuboglu and Christopher R\'e and Matei Zaharia and James Zou
Abstract要約: 商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
参考スコア（独自算出の注目度）: 35.48276161473216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Commercial ML APIs offered by providers such as Google, Amazon and Microsoft have dramatically simplified ML adoption in many applications. Numerous companies and academics pay to use ML APIs for tasks such as object detection, OCR and sentiment analysis. Different ML APIs tackling the same task can have very heterogeneous performance. Moreover, the ML models underlying the APIs also evolve over time. As ML APIs rapidly become a valuable marketplace and a widespread way to consume machine learning, it is critical to systematically study and compare different APIs with each other and to characterize how APIs change over time. However, this topic is currently underexplored due to the lack of data. In this paper, we present HAPI (History of APIs), a longitudinal dataset of 1,761,417 instances of commercial ML API applications (involving APIs from Amazon, Google, IBM, Microsoft and other providers) across diverse tasks including image tagging, speech recognition and text mining from 2020 to 2022. Each instance consists of a query input for an API (e.g., an image or text) along with the API's output prediction/annotation and confidence scores. HAPI is the first large-scale dataset of ML API usages and is a unique resource for studying ML-as-a-service (MLaaS). As examples of the types of analyses that HAPI enables, we show that ML APIs' performance change substantially over time--several APIs' accuracies dropped on specific benchmark datasets. Even when the API's aggregate performance stays steady, its error modes can shift across different subtypes of data between 2020 and 2022. Such changes can substantially impact the entire analytics pipelines that use some ML API as a component. We further use HAPI to study commercial APIs' performance disparities across demographic subgroups over time. HAPI can stimulate more research in the growing field of MLaaS.
Abstract（参考訳）: Google、Amazon、Microsoftなどのプロバイダが提供する商用ML APIは、多くのアプリケーションでMLの採用を劇的に単純化した。多数の企業や学者が、オブジェクト検出、ocr、感情分析などのタスクにml apiを使用するために支払う。同じタスクに取り組む異なるML APIは、非常に異質なパフォーマンスを持つ。さらに、APIを支えるMLモデルも時間とともに進化します。 ML APIは急速に価値あるマーケットプレースになり、機械学習を広く利用するようになるため、さまざまなAPIを体系的に研究し、比較し、時間とともにAPIがどのように変化するかを特徴付けることが重要です。しかし、このトピックはデータ不足のため、現在あまり探索されていない。本稿では,HAPI(History of API)という,商用ML APIアプリケーション(Amazon,Google,IBM,MicrosoftなどのプロバイダのAPIを含む)の1,761,417の時系列データセットを,画像タグ付けや音声認識,テキストマイニングなど,さまざまなタスクにわたって紹介する。各インスタンスは、API(例えば、画像やテキスト)に対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。 HAPIはML API使用量の最初の大規模データセットであり、ML-as-a-service(MLaaS)を研究するためのユニークなリソースである。 HAPIが実現した分析のタイプとして、ML APIのパフォーマンスが、時間とともに大幅に変化していることが示される。 APIの集約パフォーマンスが安定している場合でも、エラーモードは2020年から2022年の間に、さまざまなサブタイプのデータに移行することができる。このような変更は、ML APIをコンポーネントとして使用する分析パイプライン全体に大きな影響を与える可能性がある。さらに、HAPIを使用して、時間とともに人口構成サブグループ間での商用APIのパフォーマンス格差を調査します。 HAPIはMLaaSの成長分野におけるさらなる研究を促進することができる。

関連論文リスト

Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
SEAL: Suite for Evaluating API-use of LLMs [1.2528321519119252]
SEALは、現実世界のAPI使用時に大きな言語モデルを評価するように設計されたエンドツーエンドのテストベッドである。既存のベンチマークを標準化し、API検索と計画をテストするエージェントシステムを統合し、リアルタイムAPIの不安定性に対処する。
論文参考訳（メタデータ） (2024-09-23T20:16:49Z)
A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文参考訳（メタデータ） (2024-09-20T03:12:35Z)
WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment [49.00213183302225]
本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
論文参考訳（メタデータ） (2024-07-10T15:52:44Z)
A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文参考訳（メタデータ） (2024-05-24T02:44:14Z)
SpeCrawler: Generating OpenAPI Specifications from API Documentation Using Large Language Models [8.372941103284774]
SpeCrawlerは、さまざまなAPIドキュメントからOpenAPI仕様を生成する包括的なシステムである。本稿では,実証的証拠とケーススタディに支えられたSpeCrawlerの方法論について考察する。
論文参考訳（メタデータ） (2024-02-18T15:33:24Z)
APICom: Automatic API Completion via Prompt Learning and Adversarial Training-based Data Augmentation [6.029137544885093]
APIレコメンデーションは、開発者が多数の候補APIの中で必要なAPIを見つけるのを支援するプロセスである。これまでの研究では、主にAPIレコメンデーションをレコメンデーションタスクとしてモデル化していた。ニューラルネットワーク翻訳研究領域に動機づけられたこの問題を生成タスクとしてモデル化することができる。提案手法は,プロンプト学習に基づく新しいアプローチAPIComを提案し,そのプロンプトに応じてクエリに関連するAPIを生成する。
論文参考訳（メタデータ） (2023-09-13T15:31:50Z)
Continual Learning From a Stream of APIs [90.41825351073908]
継続学習(CL)は、以前のタスクを忘れずに新しいタスクを学習することを目的としている。既存のCLメソッドは大量の生データを必要とするが、著作権上の考慮とプライバシー上のリスクのために利用できないことが多い。本稿では,データ効率CL (DECL-APIs) とデータフリーCL (DFCL-APIs) の2つの実践的yet-novel CL設定について考察する。
論文参考訳（メタデータ） (2023-08-31T11:16:00Z)
Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。 BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文参考訳（メタデータ） (2023-05-10T16:40:52Z)
Improving the Learnability of Machine Learning APIs by Semi-Automated API Wrapping [0.0]
学習や使用が容易なAPIを作成するという課題に,特に初心者が対処しています。広く使われているML API skl のこの問題について検討する。クライアントプログラムに影響を与えることなく、排除できるAPIの未使用部分と明らかに役に立たない部分を特定します。
論文参考訳（メタデータ） (2022-03-29T12:42:05Z)
Did the Model Change? Efficiently Assessing Machine Learning API Shifts [24.342984907651505]
機械学習(ML)予測APIはますます広く使われている。モデル更新や再トレーニングのために、時間とともに変更することも可能だ。 MLモデルがどのように変更されたかは、ユーザにとって明確ではないことが多い。
論文参考訳（メタデータ） (2021-07-29T17:41:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。