論文の概要: AGO: Boosting Mobile AI Inference Performance by Removing Constraints on
Graph Optimization
- arxiv url: http://arxiv.org/abs/2212.01005v1
- Date: Fri, 2 Dec 2022 07:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:13:25.796190
- Title: AGO: Boosting Mobile AI Inference Performance by Removing Constraints on
Graph Optimization
- Title(参考訳): AGO: グラフ最適化の制約を取り除き,モバイルAI推論性能を高める
- Authors: Zhiying Xu, Hongding Peng, Wei Wang
- Abstract要約: AGOは、ディープモデルの推論性能を高めるために任意の構造を持つグラフ最適化のためのフレームワークである。
本稿では,複数の複雑な演算子を縫合し,より高性能な演算子融合を提案する。
本研究では,最先端のディープコンパイラと比較して,推論性能を最大3.3倍向上させることができることを示す。
- 参考スコア(独自算出の注目度): 6.4284258345779435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional deep learning compilers rely on heuristics for subgraph
generation, which impose extra constraints on graph optimization, e.g., each
subgraph can only contain at most one complex operator. In this paper, we
propose AGO, a framework for graph optimization with arbitrary structures to
boost the inference performance of deep models by removing such constraints. To
create new optimization opportunities for complicated subgraphs, we propose
intensive operator fusion, which can effectively stitch multiple complex
operators together for better performance. Further, we design a graph
partitioning scheme that allows an arbitrary structure for each subgraph while
guaranteeing the acyclic property among all generated subgraphs. Additionally,
to enable efficient performance tuning on complicated subgraphs, we devise a
novel divide-and-conquer tuning mechanism to orchestrate different system
components. Through extensive experiments on various neural networks and mobile
devices, we show that our system can improve the inference performance by up to
3.3x when compared with state-of-the-art deep compilers.
- Abstract(参考訳): 従来のディープラーニングコンパイラはグラフ生成のヒューリスティックスに依存しており、グラフ最適化に余分な制約を課している。
本稿では,このような制約を取り除き,深層モデルの推論性能を高めるために任意の構造を持つグラフ最適化フレームワークを提案する。
複雑な部分グラフに対する新たな最適化機会を創出するために,複数の複雑な演算子を効果的に縫合して性能を向上する集中型演算子融合を提案する。
さらに,各サブグラフの任意の構造を許容するグラフ分割方式を設計し,生成したサブグラフ間の非巡回性を保証した。
さらに,複雑な部分グラフ上での効率的なパフォーマンスチューニングを実現するため,異なるシステムコンポーネントを編成する新たな分母調整機構を考案した。
ニューラルネットワークやモバイルデバイスに関する広範な実験を通じて,最先端の深層コンパイラと比較して,推論性能を最大3.3倍向上させることができることを示す。
関連論文リスト
- Bayesian Optimization of Functions over Node Subsets in Graphs [14.670181702535825]
グラフ上での最適化のための新しいフレームワークを提案する。
元のグラフの各$k$-nodeを、新しいグラフのノードにマップします。
人工環境と実環境環境の両方における実験により,提案したBOフレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-05-24T00:24:55Z) - A structure-aware framework for learning device placements on computation graphs [15.282882425920064]
本稿では,OpenVINOツールキットから抽出したより小さなグラフに頼って,デバイス配置作業のための新しいフレームワークを提案する。
このフレームワークは、グラフの粗大化、ノード表現学習、ポリシー最適化を含む5つのステップで構成されている。
3つのベンチマークモデルを用いた複数の実験により,提案手法の柔軟性と有効性を示す。
論文 参考訳(メタデータ) (2024-05-23T05:29:29Z) - From Hypergraph Energy Functions to Hypergraph Neural Networks [94.88564151540459]
パラメータ化されたハイパーグラフ正規化エネルギー関数の表現型族を示す。
次に、これらのエネルギーの最小化がノード埋め込みとして効果的に機能することを実証する。
提案した双レベルハイパーグラフ最適化と既存のGNNアーキテクチャを共通的に用いている。
論文 参考訳(メタデータ) (2023-06-16T04:40:59Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Hector: An Efficient Programming and Compilation Framework for Implementing Relational Graph Neural Networks in GPU Architectures [24.841128441671234]
RGNNは、異種グラフ内の異なるタイプのノードとエッジをモデリングするための専用の構造を持つグラフニューラルネットワークである。
本稿では,新しい2レベル中間表現とコード生成フレームワークであるHectorを提案し,RGNNモデルの鍵となる特性を捉える。
Hectorは、最先端のパブリックシステムと比較して、推論で最大9.9倍、トレーニングで最大43.7倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2023-01-16T06:53:18Z) - Graph Contrastive Learning with Implicit Augmentations [36.57536688367965]
Inlicit Graph Contrastive Learning (iGCL)は、グラフトポロジ構造を再構築することにより、変分グラフオートエンコーダから学習した潜時空間の増大を利用する。
グラフレベルとノードレベルの両方のタスクに対する実験結果から,提案手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-11-07T17:34:07Z) - ALT: Breaking the Wall between Graph and Operator Level Optimizations
for Deep Learning Compilation [38.8918502461244]
ALTはディープモデルのためのグラフと演算子レベルの共同最適化を行うコンパイラである。
JOGは、単一の演算子の性能とエンドツーエンドの推論性能の両方の観点から、最先端のコンパイラ(例えばAnsor)よりも大幅に優れている。
論文 参考訳(メタデータ) (2022-10-22T11:09:36Z) - Graph Contrastive Learning Automated [94.41860307845812]
グラフコントラスト学習(GraphCL)は、有望な表現学習性能とともに登場した。
GraphCLのヒンジがアドホックなデータ拡張に与える影響は、データセット毎に手動で選択する必要がある。
本稿では,グラフデータ上でGraphCLを実行する際に,データ拡張を自動的に,適応的に動的に選択する統合バイレベル最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-10T16:35:27Z) - A Robust and Generalized Framework for Adversarial Graph Embedding [73.37228022428663]
本稿では,AGE という逆グラフ埋め込みのための頑健なフレームワークを提案する。
AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成する。
本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案する。
論文 参考訳(メタデータ) (2021-05-22T07:05:48Z) - Counting Substructures with Higher-Order Graph Neural Networks:
Possibility and Impossibility Results [58.277290855841976]
グラフニューラルネットワーク(GNN)の計算コストと表現力のトレードオフについて検討する。
新しいモデルでは、$k$のサブグラフをカウントでき、低次GNNの既知の制限を克服できることを示す。
いくつかの場合において、提案アルゴリズムは既存の高階$k$-GNNに比べて計算量を大幅に削減することができる。
論文 参考訳(メタデータ) (2020-12-06T03:42:54Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。