論文の概要: POSET-RL: Phase ordering for Optimizing Size and Execution Time using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.04238v1
- Date: Wed, 27 Jul 2022 08:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-14 18:19:32.528998
- Title: POSET-RL: Phase ordering for Optimizing Size and Execution Time using
Reinforcement Learning
- Title(参考訳): POSET-RL:強化学習を用いたサイズと実行時間の最適化のための位相順序付け
- Authors: Shalini Jain, Yashas Andaluri, S. VenkataKeerthy, Ramakrishna
Upadrasta
- Abstract要約: 位相順序付け問題に対する強化学習に基づく解法を提案する。
Oz Dependence Graph (ODG) と呼ばれるグラフを手動順序付けでモデル化する2つの手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ever increasing memory requirements of several applications has led to
increased demands which might not be met by embedded devices. Constraining the
usage of memory in such cases is of paramount importance. It is important that
such code size improvements should not have a negative impact on the runtime.
Improving the execution time while optimizing for code size is a non-trivial
but a significant task. The ordering of standard optimization sequences in
modern compilers is fixed, and are heuristically created by the compiler domain
experts based on their expertise. However, this ordering is sub-optimal, and
does not generalize well across all the cases. We present a reinforcement
learning based solution to the phase ordering problem, where the ordering
improves both the execution time and code size. We propose two different
approaches to model the sequences: one by manual ordering, and other based on a
graph called Oz Dependence Graph (ODG). Our approach uses minimal data as
training set, and is integrated with LLVM. We show results on x86 and AArch64
architectures on the benchmarks from SPEC-CPU 2006, SPEC-CPU 2017 and MiBench.
We observe that the proposed model based on ODG outperforms the current Oz
sequence both in terms of size and execution time by 6.19% and 11.99% in SPEC
2017 benchmarks, on an average.
- Abstract(参考訳): いくつかのアプリケーションにおけるメモリ要件の増大は、組み込みデバイスでは満たせない要求の増加につながった。
このような場合、メモリの使用を制限することが最重要となる。
このようなコードサイズの改善がランタイムに悪影響を及ぼさないことが重要です。
コードサイズを最適化しながら実行時間を改善することは、簡単ではないが重要なタスクである。
現代のコンパイラにおける標準最適化シーケンスの順序は固定されており、その専門知識に基づいてコンパイラドメインの専門家によってヒューリスティックに作成される。
しかし、この順序は準最適であり、すべてのケースでうまく一般化しない。
本稿では,順序付けが実行時間とコードサイズの両方を改善する段階順序付け問題に対する強化学習に基づく解を提案する。
本稿では,Oz Dependence Graph (ODG) と呼ばれるグラフに基づいて,手動順序付けによるシーケンスのモデル化手法を提案する。
私たちのアプローチでは、トレーニングセットとして最小限のデータを使用し、LLVMと統合されています。
我々はSPEC-CPU 2006 と MiBench のベンチマークで x86 および AArch64 アーキテクチャの結果を示す。
ODGに基づく提案モデルは,SPEC 2017ベンチマークにおいて,サイズと実行時間の両面で,現在のOzシーケンスを平均6.19%,1.99%で上回っている。
関連論文リスト
- TREE: Tree Regularization for Efficient Execution [4.205565040528205]
本稿では,決定木の訓練中に不均一な確率分布を報知することにより,経路長を削減する手法を提案する。
具体的には,CARTアルゴリズムの不純物を規則化し,低不純物だけでなく,分割基準の評価にも高い非対称分布を求める。
論文 参考訳(メタデータ) (2024-06-18T12:01:06Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - AcceleratedLiNGAM: Learning Causal DAGs at the speed of GPUs [57.12929098407975]
既存の因果探索法を効率的に並列化することにより,数千次元まで拡張可能であることを示す。
具体的には、DirectLiNGAMの因果順序付けサブプロデューサに着目し、GPUカーネルを実装して高速化する。
これにより、遺伝子介入による大規模遺伝子発現データに対する因果推論にDirectLiNGAMを適用することで、競争結果が得られる。
論文 参考訳(メタデータ) (2024-03-06T15:06:11Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - CHERI Performance Enhancement for a Bytecode Interpreter [0.0]
我々は、ネイティブポインタ(一般に64ビット)と比較して、CHERI機能(128ビット)が大きいため、ある種類のソフトウェアが引き起こすランタイムオーバーヘッドを取り除くことができることを示す。
最悪の場合のスローダウンは100倍(最適化前)から2倍(最適化後)まで大幅に改善される。
論文 参考訳(メタデータ) (2023-08-09T17:12:23Z) - Memory Safe Computations with XLA Compiler [14.510796427699459]
XLAコンパイラ拡張は、ユーザーが指定したメモリ制限に従ってアルゴリズムの表現を調整する。
我々は,k-アネレスト近傍およびスパースガウス過程回帰法が単一デバイス上ではるかに大きなスケールで実行可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T16:59:28Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z) - Runtime Performances Benchmark for Knowledge Graph Embedding Methods [0.0]
本稿は,KGE alghoritmsの最先端実装のランタイム性能のキャラクタリゼーションについて述べる。
論文 参考訳(メタデータ) (2020-11-05T21:58:11Z) - Static Neural Compiler Optimization via Deep Reinforcement Learning [1.458855293397494]
本稿では,位相整合問題に対する深層強化学習手法を用いる。
LLVMのO3シークエンスを構成するサブシーケンスを用いて、エージェントはトレーニングに使用するソースコードのセット上でO3シークエンスより優れていることを学習する。
我々は、我々のアプローチを用いて訓練されたモデルは、ニューラル最適化エージェントとして現代のコンパイラに統合できると考えている。
論文 参考訳(メタデータ) (2020-08-20T13:16:29Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。