Fugu-MT 論文翻訳(概要): Emerging Platforms Meet Emerging LLMs: A Year-Long Journey of Top-Down Development

論文の概要: Emerging Platforms Meet Emerging LLMs: A Year-Long Journey of Top-Down Development

arxiv url: http://arxiv.org/abs/2404.09151v1
Date: Sun, 14 Apr 2024 06:09:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 15:17:37.429845
Title: Emerging Platforms Meet Emerging LLMs: A Year-Long Journey of Top-Down Development
Title（参考訳）: 新興プラットフォームのLLM: トップダウン開発1年
Authors: Siyuan Feng, Jiawei Liu, Ruihang Lai, Charlie F. Ruan, Yong Yu, Lingming Zhang, Tianqi Chen,
Abstract要約: TapMLは、さまざまなプラットフォームへの機械学習システムのデプロイを合理化するために設計された、トップダウンのアプローチとツーリングである。従来のボトムアップメソッドとは異なり、TapMLはテスト彫刻を通じてユニットテストを自動化し、マイグレーションベースの戦略を採用する。 TapMLは1年間にわたる現実世界の取り組みを通じて開発され、重要な新興モデルやプラットフォームをデプロイすることに成功しました。
参考スコア（独自算出の注目度）: 20.873143073842705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deploying machine learning (ML) on diverse computing platforms is crucial to accelerate and broaden their applications. However, it presents significant software engineering challenges due to the fast evolution of models, especially the recent \llmfull{s} (\llm{s}), and the emergence of new computing platforms. Current ML frameworks are primarily engineered for CPU and CUDA platforms, leaving a big gap in enabling emerging ones like Metal, Vulkan, and WebGPU. While a traditional bottom-up development pipeline fails to close the gap timely, we introduce TapML, a top-down approach and tooling designed to streamline the deployment of ML systems on diverse platforms, optimized for developer productivity. Unlike traditional bottom-up methods, which involve extensive manual testing and debugging, TapML automates unit testing through test carving and adopts a migration-based strategy for gradually offloading model computations from mature source platforms to emerging target platforms. By leveraging realistic inputs and remote connections for gradual target offloading, TapML accelerates the validation and minimizes debugging scopes, significantly optimizing development efforts. TapML was developed and applied through a year-long, real-world effort that successfully deployed significant emerging models and platforms. Through serious deployments of 82 emerging models in 17 distinct architectures across 5 emerging platforms, we showcase the effectiveness of TapML in enhancing developer productivity while ensuring model reliability and efficiency. Furthermore, we summarize comprehensive case studies from our real-world development, offering best practices for developing emerging ML systems.
Abstract（参考訳）: さまざまなコンピューティングプラットフォームに機械学習(ML)をデプロイすることは、アプリケーションの加速と拡張に不可欠である。しかし、モデル、特に最近の \llmfull{s} (\llm{s}) の急速な進化と新しいコンピューティングプラットフォームの出現により、ソフトウェアエンジニアリングの重大な課題が提示される。現在のMLフレームワークは、主にCPUとCUDAプラットフォーム向けに設計されており、Metal、Vulkan、WebGPUといった新興のフレームワークを有効にするための大きなギャップを残している。従来のボトムアップ開発パイプラインはギャップをタイムリーに埋めることができないが、開発者の生産性に最適化されたさまざまなプラットフォームへのMLシステムのデプロイを合理化するトップダウンのアプローチとツーリングであるTapMLを導入する。広範な手動テストとデバッグを含む従来のボトムアップメソッドとは異なり、TapMLはテスト彫刻を通じてユニットテストを自動化するとともに、成熟したソースプラットフォームから新たなターゲットプラットフォームへのモデル計算を徐々にオフロードする移行ベースの戦略を採用している。リアルな入力とリモート接続を段階的なターゲットオフロードに活用することにより、TapMLはバリデーションを加速し、デバッグスコープを最小化し、開発作業を大幅に最適化する。 TapMLは1年間にわたる現実世界の取り組みを通じて開発され、重要な新興モデルやプラットフォームをデプロイすることに成功しました。 5つの新興プラットフォームにまたがる17の異なるアーキテクチャで82の新興モデルを本格的にデプロイすることで、TapMLが開発者の生産性を向上し、モデルの信頼性と効率を確保できることを示す。さらに,新たなMLシステムを開発するためのベストプラクティスを提供するために,実世界の開発から包括的ケーススタディを要約する。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
LLM-enabled Instance Model Generation [4.52634430160579]
本研究では,大規模言語モデル(LLM)を用いたインスタンスモデルの生成について検討する。まず、LLMを用いて、必要なすべてのインスタンスモデル情報を含む簡易な構造化出力を生成し、その中間表現を有効なXMIファイルにコンパイルする。提案手法は, 実例モデル生成タスクにおけるLCMのユーザビリティを著しく向上することを示す。
論文参考訳（メタデータ） (2025-03-28T16:34:29Z)
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。 AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文参考訳（メタデータ） (2024-11-15T22:02:28Z)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-21T17:58:20Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Enhancing Code Generation Performance of Smaller Models by Distilling the Reasoning Ability of LLMs [36.409470894115074]
我々は、LLMのコード生成推論機能をより小さなモデルに転送することを目的としたCodePLANフレームワークを提案する。提案手法は,APPSベンチマークにおいて,より小さなモデルのコード生成性能を130%以上向上させる。
論文参考訳（メタデータ） (2024-03-20T03:09:54Z)
Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文参考訳（メタデータ） (2023-10-05T09:09:44Z)
Model Share AI: An Integrated Toolkit for Collaborative Machine Learning Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。 AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。 AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文参考訳（メタデータ） (2023-09-27T15:24:39Z)
MLOps: A Step Forward to Enterprise Machine Learning [0.0]
この研究は、MLOps、そのメリット、困難、進化、および重要な基盤技術に関する詳細なレビューを提示する。 MLOpsワークフローは、モデルとデータ探索とデプロイメントの両方に必要なさまざまなツールとともに、詳細に説明されている。この記事では、さまざまな成熟度の高い自動パイプラインを使用して、MLプロジェクトのエンドツーエンド生産にも光を当てます。
論文参考訳（メタデータ） (2023-05-27T20:44:14Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文参考訳（メタデータ） (2023-02-15T18:55:29Z)
SeLoC-ML: Semantic Low-Code Engineering for Machine Learning Applications in Industrial IoT [9.477629856092218]
本稿では,Semantic Low-Code Engineering for ML Applications (SeLoC-ML) というフレームワークを提案する。 SeLoC-MLは、非専門家が大規模なMLモデルやデバイスをモデル化し、発見し、再利用することを可能にする。開発者は、レシピと呼ばれるセマンティックなアプリケーションテンプレートから、エンドユーザアプリケーションのプロトタイプを高速に作成できる。
論文参考訳（メタデータ） (2022-07-18T13:06:21Z)
YMIR: A Rapid Data-centric Development Platform for Vision Applications [82.67319997259622]
本稿では,コンピュータビジョンアプリケーションの開発を迅速化するオープンソースプラットフォームについて紹介する。このプラットフォームは、効率的なデータ開発を機械学習開発プロセスの中心に置く。
論文参考訳（メタデータ） (2021-11-19T05:02:55Z)
ModelCI-e: Enabling Continual Learning in Deep Learning Serving Systems [21.37434583546624]
本稿では,この問題を解決するために,ModelCI-e(継続的インテグレーションと進化)と呼ばれる軽量MLOpsプラグインを実装した。 ModelCI-eは継続学習(CL)とMLデプロイメント技術を採用し、モデルの更新と検証をエンドツーエンドでサポートする。予備的な結果は、ModelCI-eのユーザビリティを示し、モデル更新と推論ワークロード間の干渉を取り除くことが、システム効率の向上に不可欠であることを示している。
論文参考訳（メタデータ） (2021-06-06T13:28:51Z)
Low-Precision Hardware Architectures Meet Recommendation Model Inference at Scale [11.121380180647769]
本稿では,低精度ハードウェアに参照レコメンデーションモデルを適用するための検索戦略について紹介する。また,ツールチェーンの設計と開発について論じ,モデルの精度を生涯にわたって維持する。これらの教訓は,ハードウェアアーキテクチャとソフトウェアエンジニアリングの協調設計を促進するものだ,と私たちは信じています。
論文参考訳（メタデータ） (2021-05-26T16:42:33Z)
Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文参考訳（メタデータ） (2021-01-11T15:54:48Z)
Quantitatively Assessing the Benefits of Model-driven Development in Agent-based Modeling and Simulation [80.49040344355431]
本稿では,MDD とABMS プラットフォームの利用状況と開発ミスについて比較する。その結果、MDD4ABMSはNetLogoと類似した設計品質のシミュレーションを開発するのに、より少ない労力を必要とすることがわかった。
論文参考訳（メタデータ） (2020-06-15T23:29:04Z)
MLModelCI: An Automatic Cloud Platform for Efficient MLaaS [15.029094196394862]
当社はこのプラットフォームを,Apache 2.0ライセンス下でGitHub上でオープンソースプロジェクトとしてリリースしています。私たちのシステムは、現在のMLトレーニングとサービスシステムのギャップを埋めます。
論文参考訳（メタデータ） (2020-06-09T07:48:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。