論文の概要: The infrastructure powering IBM's Gen AI model development
- arxiv url: http://arxiv.org/abs/2407.05467v1
- Date: Sun, 7 Jul 2024 18:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:39:22.163310
- Title: The infrastructure powering IBM's Gen AI model development
- Title(参考訳): IBMのGen AIモデル開発を支えるインフラ
- Authors: Talia Gershon, Seetharami Seelam, Brian Belgodere, Milton Bonilla, Lan Hoang, Danny Barnett, I-Hsin Chung, Apoorve Mohan, Ming-Hung Chen, Lixiang Luo, Robert Walkup, Constantinos Evangelinos, Shweta Salaria, Marc Dombrowa, Yoonho Park, Apo Kayi, Liran Schour, Alim Alim, Ali Sydney, Pavlos Maniotis, Laurent Schares, Bernard Metzler, Bengi Karacali-Akyamac, Sophia Wen, Tatsuhiro Chiba, Sunyanan Choochotkaew, Takeshi Yoshimura, Claudia Misale, Tonia Elengikal, Kevin O Connor, Zhuoran Liu, Richard Molina, Lars Schneidenbach, James Caden, Christopher Laibinis, Carlos Fonseca, Vasily Tarasov, Swaminathan Sundararaman, Frank Schmuck, Scott Guthridge, Jeremy Cohn, Marc Eshel, Paul Muench, Runyu Liu, William Pointer, Drew Wyskida, Bob Krull, Ray Rose, Brent Wolfe, William Cornejo, John Walter, Colm Malone, Clifford Perucci, Frank Franco, Nigel Hinds, Bob Calio, Pavel Druyan, Robert Kilduff, John Kienle, Connor McStay, Andrew Figueroa, Matthew Connolly, Edie Fost, Gina Roma, Jake Fonseca, Ido Levy, Michele Payne, Ryan Schenkel, Amir Malki, Lion Schneider, Aniruddha Narkhede, Shekeba Moshref, Alexandra Kisin, Olga Dodin, Bill Rippon, Henry Wrieth, John Ganci, Johnny Colino, Donna Habeger-Rose, Rakesh Pandey, Aditya Gidh, Aditya Gaur, Dennis Patterson, Samsuddin Salmani, Rambilas Varma, Rumana Rumana, Shubham Sharma, Aditya Gaur, Mayank Mishra, Rameswar Panda, Aditya Prasad, Matt Stallone, Gaoyuan Zhang, Yikang Shen, David Cox, Ruchir Puri, Dakshi Agrawal, Drew Thorstensen, Joel Belog, Brent Tang, Saurabh Kumar Gupta, Amitabha Biswas, Anup Maheshwari, Eran Gampel, Jason Van Patten, Matthew Runion, Sai Kaki, Yigal Bogin, Brian Reitz, Steve Pritko, Shahan Najam, Surya Nambala, Radhika Chirra, Rick Welp, Frank DiMitri, Felipe Telles, Amilcar Arvelo, King Chu, Ed Seminaro, Andrew Schram, Felix Eickhoff, William Hanson, Eric Mckeever, Dinakaran Joseph, Piyush Chaudhary, Piyush Shivam, Puneet Chaudhary, Wesley Jones, Robert Guthrie, Chris Bostic, Rezaul Islam, Steve Duersch, Wayne Sawdon, John Lewars, Matthew Klos, Michael Spriggs, Bill McMillan, George Gao, Ashish Kamra, Gaurav Singh, Marc Curry, Tushar Katarki, Joe Talerico, Zenghui Shi, Sai Sindhur Malleni, Erwan Gallen,
- Abstract要約: IBMは、生成的AIモデル開発を支えるハイブリッドクラウドインフラストラクチャについて説明している。
Velaは、IBM Cloudに直接統合されたAI最適化スーパーコンピュータ機能である。
Blue Velaは大規模で汎用的なオンプレミスホスティング環境である。
- 参考スコア(独自算出の注目度): 34.76355238366146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI Infrastructure plays a key role in the speed and cost-competitiveness of developing and deploying advanced AI models. The current demand for powerful AI infrastructure for model training is driven by the emergence of generative AI and foundational models, where on occasion thousands of GPUs must cooperate on a single training job for the model to be trained in a reasonable time. Delivering efficient and high-performing AI training requires an end-to-end solution that combines hardware, software and holistic telemetry to cater for multiple types of AI workloads. In this report, we describe IBM's hybrid cloud infrastructure that powers our generative AI model development. This infrastructure includes (1) Vela: an AI-optimized supercomputing capability directly integrated into the IBM Cloud, delivering scalable, dynamic, multi-tenant and geographically distributed infrastructure for large-scale model training and other AI workflow steps and (2) Blue Vela: a large-scale, purpose-built, on-premises hosting environment that is optimized to support our largest and most ambitious AI model training tasks. Vela provides IBM with the dual benefit of high performance for internal use along with the flexibility to adapt to an evolving commercial landscape. Blue Vela provides us with the benefits of rapid development of our largest and most ambitious models, as well as future-proofing against the evolving model landscape in the industry. Taken together, they provide IBM with the ability to rapidly innovate in the development of both AI models and commercial offerings.
- Abstract(参考訳): AIインフラストラクチャは、高度なAIモデルの開発とデプロイのスピードとコスト競争において重要な役割を果たす。
モデルトレーニングのための強力なAIインフラストラクチャに対する現在の需要は、生成AIと基礎モデルの出現によって引き起こされている。
効率的でハイパフォーマンスなAIトレーニングを提供するには、ハードウェア、ソフトウェア、総合的テレメトリを組み合わせたエンドツーエンドのソリューションが必要である。
本稿では,我々の生成的AIモデル開発を支える,IBMのハイブリッドクラウドインフラストラクチャについて述べる。
このインフラストラクチャには、(1)Vela: IBM Cloudに直接統合されたAI最適化スーパーコンピュータ機能、大規模モデルトレーニングやその他のAIワークフローステップのためのスケーラブルで動的、マルチテナント、地理的に分散されたインフラストラクチャを提供する。
VelaはIBMに、内部使用における高性能の2つのメリットと、進化する商用環境に適応する柔軟性を提供する。
Blue Velaは、我々の最大かつ最も野心的なモデルの迅速な開発と、業界における進化するモデルランドスケープに対する将来の防御の恩恵を提供する。
それらを組み合わせて、IBMはAIモデルと商用製品の両方の開発を迅速に革新する能力を提供する。
関連論文リスト
- Building AI Agents for Autonomous Clouds: Challenges and Design Principles [17.03870042416836]
AI for IT Operations(AIOps)は、障害のローカライゼーションや根本原因分析といった複雑な運用タスクを自動化することを目的としている。
このビジョンペーパーは、まず要求をフレーミングし、次に設計決定について議論することで、そのようなフレームワークの基礎を定めています。
アプリケーションをオーケストレーションし,カオスエンジニアリングを使用してリアルタイム障害を注入するエージェント-クラウドインターフェースを活用したプロトタイプ実装であるAIOpsLabと,障害のローカライズと解決を行うエージェントとのインターフェースを提案する。
論文 参考訳(メタデータ) (2024-07-16T20:40:43Z) - Reusable MLOps: Reusable Deployment, Reusable Infrastructure and
Hot-Swappable Machine Learning models and services [0.0]
私たちは、Reusable MLOpsと呼ばれるAI/MLオペレーションの分野で、持続可能な新しい概念を紹介します。
既存のデプロイメントとインフラストラクチャを再利用して、インフラストラクチャやマイクロサービスを分解することなく、それらをホットスワッピングすることで、新しいモデルを提供しています。
論文 参考訳(メタデータ) (2024-02-19T23:40:46Z) - Computing in the Era of Large Generative Models: From Cloud-Native to
AI-Native [46.7766555589807]
クラウドネイティブ技術と高度な機械学習推論の両方のパワーを利用するAIネイティブコンピューティングパラダイムについて説明する。
これらの共同作業は、コスト・オブ・グッド・ソード(COGS)を最適化し、資源のアクセシビリティを向上させることを目的としている。
論文 参考訳(メタデータ) (2024-01-17T20:34:11Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - Green Edge AI: A Contemporary Survey [49.47249665895926]
グリーンエッジAIに関する現代の調査を紹介する。
その可能性にもかかわらず、エッジAIは重大な課題に直面している。主な原因は、無線エッジネットワークのリソース制限と、ディープラーニング(DL)のリソース集約性との間の二分である。
我々は、エッジAIシステムにおける3つの重要なタスクに対して、トレーニングデータ取得、エッジトレーニング、エッジ推論を含むエネルギー効率の高い設計手法について検討する。
論文 参考訳(メタデータ) (2023-12-01T04:04:37Z) - Evaluating Emerging AI/ML Accelerators: IPU, RDU, and NVIDIA/AMD GPUs [14.397623940689487]
Graphcore Intelligence Processing Unit (IPU)、Sambanova Reconfigurable Dataflow Unit (RDU)、拡張GPUプラットフォームについてレビューする。
この研究は、これらの商用AI/MLアクセラレータの予備評価と比較を提供する。
論文 参考訳(メタデータ) (2023-11-08T01:06:25Z) - Large Language Models Empowered Autonomous Edge AI for Connected
Intelligence [51.269276328087855]
エッジ人工知能(Edge AI)は、コネクテッドインテリジェンスを実現するための有望なソリューションである。
この記事では、ユーザのさまざまな要件を満たすために自動的に組織化し、適応し、最適化する、自律的なエッジAIシステムのビジョンを示す。
論文 参考訳(メタデータ) (2023-07-06T05:16:55Z) - Enabling Automated Machine Learning for Model-Driven AI Engineering [60.09869520679979]
モデル駆動型ソフトウェアエンジニアリングとモデル駆動型AIエンジニアリングを実現するための新しいアプローチを提案する。
特に、私たちはAutomated MLをサポートし、AI集約システムの開発において、AIの深い知識のないソフトウェアエンジニアを支援します。
論文 参考訳(メタデータ) (2022-03-06T10:12:56Z) - Cloud2Edge Elastic AI Framework for Prototyping and Deployment of AI
Inference Engines in Autonomous Vehicles [1.688204090869186]
本稿では、ディープラーニングモジュールに基づく自律運転アプリケーションのためのAI推論エンジンを開発するための新しいフレームワークを提案する。
我々は,ソフトウェア・イン・ザ・ループ(SiL)パラダイムに従って,クラウド上でプロトタイピングを行うAIコンポーネント開発サイクルに対して,シンプルでエレガントなソリューションを導入する。
提案フレームワークの有効性は,自律走行車用AI推論エンジンの2つの実例を用いて実証した。
論文 参考訳(メタデータ) (2020-09-23T09:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。