論文の概要: TF2AIF: Facilitating development and deployment of accelerated AI models on the cloud-edge continuum
- arxiv url: http://arxiv.org/abs/2404.13715v1
- Date: Sun, 21 Apr 2024 17:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 17:42:20.335710
- Title: TF2AIF: Facilitating development and deployment of accelerated AI models on the cloud-edge continuum
- Title(参考訳): TF2AIF: クラウドエッジ連続体上での加速AIモデルの開発と展開
- Authors: Aimilios Leftheriotis, Achilleas Tzenetopoulos, George Lentaris, Dimitrios Soudris, Georgios Theodoridis,
- Abstract要約: 本稿では,高レベル言語で入力されたAI関数の複数のSWバージョンを生成するためのカスタムツールを提案する。
TF2AIFは、異なるツールフローに基づいて構築され、相対的なコンテナのプレソラを生成する。
- 参考スコア(独自算出の注目度): 3.485426586502182
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The B5G/6G evolution relies on connect-compute technologies and highly heterogeneous clusters with HW accelerators, which require specialized coding to be efficiently utilized. The current paper proposes a custom tool for generating multiple SW versions of a certain AI function input in high-level language, e.g., Python TensorFlow, while targeting multiple diverse HW+SW platforms. TF2AIF builds upon disparate tool-flows to create a plethora of relative containers and enable the system orchestrator to deploy the requested function on any peculiar node in the cloud-edge continuum, i.e., to leverage the performance/energy benefits of the underlying HW upon any circumstances. TF2AIF fills an identified gap in today's ecosystem and facilitates research on resource management or automated operations, by demanding minimal time or expertise from users.
- Abstract(参考訳): B5G/6Gの進化は、HW加速器と接続計算技術と高度に異質なクラスタに依存しており、特別な符号化を効率的に利用する必要がある。
現在の論文では、複数の多様なHW+SWプラットフォームをターゲットにしながら、ハイレベル言語、例えばPython TensorFlowで入力された特定のAI関数の複数のSWバージョンを生成するカスタムツールを提案する。
TF2AIFは、異なるツールフローに基づいて、相対的なコンテナを複数生成し、システムオーケストレータが要求された機能をクラウドエッジ連続体内の任意の特定のノードにデプロイできるようにする。
TF2AIFは、ユーザから最小限の時間や専門知識を要求することにより、今日のエコシステムのギャップを埋め、リソース管理や自動運用の研究を促進する。
関連論文リスト
- Intelligent Mobile AI-Generated Content Services via Interactive Prompt Engineering and Dynamic Service Provisioning [55.641299901038316]
AI生成コンテンツは、ネットワークエッジで協調的なMobile AIGC Service Providers(MASP)を編成して、リソース制約のあるユーザにユビキタスでカスタマイズされたコンテンツを提供することができる。
このようなパラダイムは2つの大きな課題に直面している: 1) 生のプロンプトは、ユーザーが特定のAIGCモデルで経験していないために、しばしば生成品質が低下する。
本研究では,Large Language Model (LLM) を利用してカスタマイズしたプロンプトコーパスを生成する対話型プロンプトエンジニアリング機構を開発し,政策模倣に逆強化学習(IRL)を用いる。
論文 参考訳(メタデータ) (2025-02-17T03:05:20Z) - Accelerating AIGC Services with Latent Action Diffusion Scheduling in Edge Networks [27.961536719427205]
現在のAIGCモデルは、主に集中型のフレームワーク内のコンテンツ品質に焦点を当てており、高いサービス遅延とネガティブなユーザエクスペリエンスをもたらす。
高速AIGCサービスのための複数のエッジサーバを編成する新しい遅延アクション拡散に基づくタスクスケジューリング手法であるLAD-TSを提案する。
また,AIGCモデルを改良したプロトタイプエッジシステムであるDEdgeAIを開発し,LAD-TS法の実装と評価を行った。
論文 参考訳(メタデータ) (2024-12-24T06:40:13Z) - Generating a Low-code Complete Workflow via Task Decomposition and RAG [0.040964539027092926]
GenAIベースのシステムは、そのスケールと汎用性のために設計が難しい。
我々は、GenAIベースのシステムの設計パターンとして、タスク分解と検索拡張生成の2つのテクニックを定式化した。
これらの2つのパターンがAI開発サイクル全体に影響を与えるため、データセットの生成、モデルトレーニング、モデル評価、デプロイメントフェーズにどのように影響したかを説明します。
論文 参考訳(メタデータ) (2024-11-29T20:13:56Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Characterizing and Efficiently Accelerating Multimodal Generation Model Inference [37.73921084394137]
本稿では,実システム上でのマルチモーダル生成モデルのファミリーを特徴付けることにより,鍵となるシステム設計と最適化の機会を指摘する。
我々は、アプリケーションからシステムソフトウェア、ハードウェアまで、最先端の最適化レバーが3.88倍のベースラインを設定できることを実証した。
論文 参考訳(メタデータ) (2024-09-30T20:24:08Z) - Octopus v2: On-device language model for super agent [10.998608318944985]
本研究は,GPT-4の性能を精度とレイテンシの両方で上回る20億のパラメータを持つデバイスモデルを実現するための新しい手法を提案する。
Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。
論文 参考訳(メタデータ) (2024-04-02T09:01:32Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - OTOv3: Automatic Architecture-Agnostic Neural Network Training and
Compression from Structured Pruning to Erasing Operators [57.145175475579315]
このトピックは、構造化プルーニングからニューラルアーキテクチャサーチまで、さまざまなテクニックにまたがっている。
第3世代のOTOv3(Noth-Train-Once)を導入する。
我々は,構造化プルーニングとニューラルアーキテクチャ探索におけるOTOv3の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-15T00:22:55Z) - Auto-Split: A General Framework of Collaborative Edge-Cloud AI [49.750972428032355]
本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。
私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。
論文 参考訳(メタデータ) (2021-08-30T08:03:29Z) - Dynamic Multi-Branch Layers for On-Device Neural Machine Translation [53.637479651600586]
動的マルチブランチ層を用いたオンデバイスニューラルマシン翻訳(NMT)システムの性能向上を提案する。
具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。
ほぼ同じ計算コストで、WMT14英語-ドイツ語翻訳タスクでは最大1.7 BLEUポイント、WMT20中国語-英語翻訳タスクでは1.8 BLEUポイントの改善を実現します。
論文 参考訳(メタデータ) (2021-05-14T07:32:53Z) - Transparent FPGA Acceleration with TensorFlow [1.0828616610785522]
我々は,新しいディープラーニングアクセラレータを利用したい開発者のためのツールフローを提案する。
バックエンドでは、ランタイム環境経由でアクセス可能なFPGAを使用します。
これは、ハードウェアがネットワークの構造で静的に構成されていないため、HSAツールフローによって実現できます。
論文 参考訳(メタデータ) (2021-02-02T06:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。