論文の概要: Accelerated AI Inference via Dynamic Execution Methods
- arxiv url: http://arxiv.org/abs/2411.00853v1
- Date: Wed, 30 Oct 2024 12:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:27.143168
- Title: Accelerated AI Inference via Dynamic Execution Methods
- Title(参考訳): 動的実行法によるAI推論の高速化
- Authors: Haim Barad, Jascha Achterberg, Tien Pei Chou, Jean Yu,
- Abstract要約: 本稿では,入力に基づいて計算フローを最適化する動的実行手法に着目する。
議論されている手法には、ディープネットワークからの早期離脱、言語モデルの投機的サンプリング、拡散モデルの適応的なステップが含まれる。
実験により、これらの動的アプローチは、品質を損なうことなく、レイテンシとスループットを大幅に改善できることが示された。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License:
- Abstract: In this paper, we focus on Dynamic Execution techniques that optimize the computation flow based on input. This aims to identify simpler problems that can be solved using fewer resources, similar to human cognition. The techniques discussed include early exit from deep networks, speculative sampling for language models, and adaptive steps for diffusion models. Experimental results demonstrate that these dynamic approaches can significantly improve latency and throughput without compromising quality. When combined with model-based optimizations, such as quantization, dynamic execution provides a powerful multi-pronged strategy to optimize AI inference. Generative AI requires a large amount of compute resources. This is expected to grow, and demand for resources in data centers through to the edge is expected to continue to increase at high rates. We take advantage of existing research and provide additional innovations for some generative optimizations. In the case of LLMs, we provide more efficient sampling methods that depend on the complexity of the data. In the case of diffusion model generation, we provide a new method that also leverages the difficulty of the input prompt to predict an optimal early stopping point. Therefore, dynamic execution methods are relevant because they add another dimension of performance optimizations. Performance is critical from a competitive point of view, but increasing capacity can result in significant power savings and cost savings. We have provided several integrations of these techniques into several Intel performance libraries and Huggingface Optimum. These integrations will make them easier to use and increase the adoption of these techniques.
- Abstract(参考訳): 本稿では,入力に基づいて計算フローを最適化する動的実行手法に着目する。
これは、人間の認知と同様、少ないリソースで解決できる単純な問題を識別することを目的としている。
議論されている手法には、ディープネットワークからの早期離脱、言語モデルの投機的サンプリング、拡散モデルの適応的なステップが含まれる。
実験により、これらの動的アプローチは、品質を損なうことなく、レイテンシとスループットを大幅に改善できることが示された。
量子化などのモデルベースの最適化と組み合わせることで、動的実行は、AI推論を最適化するための強力なマルチプロジェンド戦略を提供する。
生成AIには大量の計算リソースが必要です。
これは成長すると予想され、エッジへのデータセンターのリソースの需要は、ハイレートで増加し続けると期待されている。
我々は既存の研究を生かし、いくつかの生成的最適化のための追加のイノベーションを提供する。
LLMの場合、データの複雑さに依存するより効率的なサンプリング手法を提供する。
拡散モデル生成の場合、入力プロンプトの難易度を利用して最適な早期停止点を予測する新しい手法を提案する。
したがって、動的実行メソッドはパフォーマンス最適化の別の次元を追加するため、関係がある。
性能は競争的な観点からは重要であるが、能力の増大は大幅な省電力とコスト削減をもたらす可能性がある。
我々はこれらの技術をいくつかのIntelパフォーマンスライブラリやHuggingface Optimumに統合した。
これらの統合により、使用が容易になり、これらのテクニックの採用が増加します。
関連論文リスト
- Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Towards Leveraging AutoML for Sustainable Deep Learning: A Multi-Objective HPO Approach on Deep Shift Neural Networks [16.314030132923026]
本研究では,資源消費を最小化しつつ,DSNNの性能を最大化するためのハイパーパラメータ最適化(HPO)の影響について検討する。
実験の結果,提案手法の有効性が示され,精度が80%以上,計算コストが低いモデルが得られた。
論文 参考訳(メタデータ) (2024-04-02T14:03:37Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - A Data-Driven Evolutionary Transfer Optimization for Expensive Problems
in Dynamic Environments [9.098403098464704]
データ駆動、つまりサロゲート支援、進化的最適化は、高価なブラックボックス最適化問題に対処するための効果的なアプローチとして認識されている。
本稿では,データ駆動型進化的最適化により動的最適化問題を解くための,シンプルだが効果的な伝達学習フレームワークを提案する。
提案手法の有効性を実世界のケーススタディで実証した。
論文 参考訳(メタデータ) (2022-11-05T11:19:50Z) - Hyperparameter optimization of data-driven AI models on HPC systems [0.0]
この作業は、AIとHPCのクロスメソッドを活用するデータ駆動型ユースケースに関するRAISEの取り組みの一環だ。
高エネルギー物理におけるマシンラーニング粒子再構成の場合,ASHAアルゴリズムとベイジアン最適化を組み合わせることで,解析されたアルゴリズムから得られた計算資源あたりの性能が最大になることがわかった。
論文 参考訳(メタデータ) (2022-03-02T14:02:59Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - An Online Prediction Approach Based on Incremental Support Vector
Machine for Dynamic Multiobjective Optimization [19.336520152294213]
インクリメンタルサポートベクトルマシン(ISVM)に基づく新しい予測アルゴリズムを提案する。
動的多目的最適化問題(DMOP)の解決をオンライン学習プロセスとして扱う。
提案アルゴリズムは動的多目的最適化問題に効果的に取り組むことができる。
論文 参考訳(メタデータ) (2021-02-24T08:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。