論文の概要: BenchDirect: A Directed Language Model for Compiler Benchmarks
- arxiv url: http://arxiv.org/abs/2303.01557v1
- Date: Thu, 2 Mar 2023 20:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 17:05:01.029660
- Title: BenchDirect: A Directed Language Model for Compiler Benchmarks
- Title(参考訳): BenchDirect: コンパイラベンチマークのための指向言語モデル
- Authors: Foivos Tsimpourlas, Pavlos Petoumenos, Min Xu, Chris Cummins, Kim
Hazelwood, Ajitha Rajan, Hugh Leather
- Abstract要約: ソースコードの特徴表現内で指向できる最初のMLコンパイラベンチマークジェネレータであるBenchPressを開発した。
アクティブラーニングを使用して、Grewe氏らによるCPU対GPUのデータセットに目に見えない機能を備えた新しいベンチマークを導入し、取得したパフォーマンスを50%改善しました。
3つの特徴空間では、Rodiniaベンチマークの機能をターゲットにして、GitHub、CLgen、CLSmith、SRCIROR mutatorからの人書きコードよりも優れています。
- 参考スコア(独自算出の注目度): 7.194212461947882
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The exponential increase of hardware-software complexity has made it
impossible for compiler engineers to find the right optimization heuristics
manually. Predictive models have been shown to find near optimal heuristics
with little human effort but they are limited by a severe lack of diverse
benchmarks to train on. Generative AI has been used by researchers to
synthesize benchmarks into existing datasets. However, the synthetic programs
are short, exceedingly simple and lacking diversity in their features.
We develop BenchPress, the first ML compiler benchmark generator that can be
directed within source code feature representations. BenchPress synthesizes
executable functions by infilling code that conditions on the program's left
and right context. BenchPress uses active learning to introduce new benchmarks
with unseen features into the dataset of Grewe's et al. CPU vs GPU heuristic,
improving its acquired performance by 50%. BenchPress targets features that has
been impossible for other synthesizers to reach. In 3 feature spaces, we
outperform human-written code from GitHub, CLgen, CLSmith and the SRCIROR
mutator in targeting the features of Rodinia benchmarks.
BenchPress steers generation with beam search over a feature-agnostic
language model. We improve this with BenchDirect which utilizes a directed LM
that infills programs by jointly observing source code context and the compiler
features that are targeted. BenchDirect achieves up to 36% better accuracy in
targeting the features of Rodinia benchmarks, it is 1.8x more likely to give an
exact match and it speeds up execution time by up to 72% compared to
BenchPress. Both our models produce code that is difficult to distinguish from
human-written code. We conduct a Turing test which shows our models' synthetic
benchmarks are labelled as 'human-written' as often as human-written code from
GitHub.
- Abstract(参考訳): ハードウェアとソフトウェアの複雑さが指数関数的に増加するため、コンパイラエンジニアが手動で適切な最適化ヒューリスティックを見つけることは不可能になった。
予測モデルは、人間の努力の少ない最適なヒューリスティックに近いことが示されているが、トレーニングする多様なベンチマークの不足によって制限されている。
ジェネレーティブAIは、既存のデータセットにベンチマークを合成するために研究者によって使用されている。
しかし、合成プログラムは短く、非常にシンプルであり、特徴に多様性がない。
ソースコードの特徴表現内で指向できる最初のMLコンパイラベンチマークジェネレータであるBenchPressを開発した。
benchpressは、プログラムの左右のコンテキストの条件を満たすコードをインフィルすることで実行可能な機能を合成する。
benchpressはアクティブラーニングを使用して、groveなどのデータセットに未公開の機能を備えた新しいベンチマークを導入する。
CPU対GPUヒューリスティックで、取得したパフォーマンスを50%向上させた。
BenchPressは、他のシンセサイザーが到達できない機能をターゲットにしている。
3つの特徴空間では、Rodiniaベンチマークの機能をターゲットにして、GitHub、CLgen、CLSmith、SRCIROR mutatorからの人書きコードよりも優れています。
特徴に依存しない言語モデル上でのビームサーチによるBenchPressステア生成。
我々は、ソースコードコンテキストとターゲットとするコンパイラ機能を共同で観察することで、プログラムを埋め込む有向LMを利用するBenchDirectでこれを改善した。
BenchDirectは、Rodiniaベンチマークの機能をターゲットにする上で、最大で36%の精度を実現している。
どちらのモデルも、人間が書いたコードと区別するのが難しいコードを生成します。
私たちはチューリングテストを実施し、モデルの合成ベンチマークが、しばしばgithubのヒューマンライティングコードと同様に'ヒューマンライティング'とラベル付けされていることを示します。
関連論文リスト
- CYCLE: Learning to Self-Refine the Code Generation [19.71833229434497]
本稿では,CYCLEフレームワークを提案する。
350M, 1B, 2B, 3B のベンチマークで, パラメータ数が異なる CYCLE の4つの変種を実装した。
その結果、CYCLEは一度のコード生成の品質を維持し、時には改善すると同時に、コードLMの自己抑制能力を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2024-03-27T16:45:02Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - SLaDe: A Portable Small Language Model Decompiler for Optimized Assembly [6.080751346188323]
本稿では,実世界のコード上で訓練されたシーケンス・ツー・シーケンス・トランスフォーマをベースとした小型言語モデルデコンパイラであるSLaDeを提案する。
型推論を利用して、標準的な分析や最近のニューラルアプローチよりも読みやすく正確なプログラムを生成する。
論文 参考訳(メタデータ) (2023-05-21T17:31:39Z) - BenchPress: A Deep Active Benchmark Generator [7.194212461947882]
我々は,ソースコードの特徴空間表現にステアリング可能な,コンパイラ用の最初のMLベンチマークジェネレータであるBenchPressを開発した。
BenchPressは、空または既存のシーケンスの任意の部分に新しいコードを追加することで、コンパイル関数を合成する。
CLgenよりも10倍もユニークなOpenCLベンチマークをコンパイルし、より大きく、多種多様である。
論文 参考訳(メタデータ) (2022-08-13T03:00:50Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - Searching CUDA code autotuning spaces with hardware performance
counters: data from benchmarks running on various GPU architectures [0.0]
我々は,パフォーマンス関連ソースコードパラメータを考慮に入れたベンチマークを開発し,GPUアーキテクチャのピークに近い性能に到達した。
当社のフレームワークであるKernel Tuning Toolkitでは、複数のGPU上での時間とハードウェアパフォーマンスカウンタを測定し、5つのベンチマークの完全なチューニングスペースを測定しました。
本稿では,検索者に対するロバストな評価や,他者との比較に用いたスクリプトについて詳述する。
論文 参考訳(メタデータ) (2021-02-10T07:51:09Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z) - Synthesizer: Rethinking Self-Attention in Transformer Models [93.08171885200922]
ドット積の自己アテンションは、最先端のトランスフォーマーモデルでは不可欠である。
本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2020-05-02T08:16:19Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。