Fugu-MT 論文翻訳(概要): BenchDirect: A Directed Language Model for Compiler Benchmarks

論文の概要: BenchDirect: A Directed Language Model for Compiler Benchmarks

arxiv url: http://arxiv.org/abs/2303.01557v1
Date: Thu, 2 Mar 2023 20:17:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-06 17:05:01.029660
Title: BenchDirect: A Directed Language Model for Compiler Benchmarks
Title（参考訳）: BenchDirect: コンパイラベンチマークのための指向言語モデル
Authors: Foivos Tsimpourlas, Pavlos Petoumenos, Min Xu, Chris Cummins, Kim Hazelwood, Ajitha Rajan, Hugh Leather
Abstract要約: ソースコードの特徴表現内で指向できる最初のMLコンパイラベンチマークジェネレータであるBenchPressを開発した。アクティブラーニングを使用して、Grewe氏らによるCPU対GPUのデータセットに目に見えない機能を備えた新しいベンチマークを導入し、取得したパフォーマンスを50%改善しました。 3つの特徴空間では、Rodiniaベンチマークの機能をターゲットにして、GitHub、CLgen、CLSmith、SRCIROR mutatorからの人書きコードよりも優れています。
参考スコア（独自算出の注目度）: 7.194212461947882
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The exponential increase of hardware-software complexity has made it impossible for compiler engineers to find the right optimization heuristics manually. Predictive models have been shown to find near optimal heuristics with little human effort but they are limited by a severe lack of diverse benchmarks to train on. Generative AI has been used by researchers to synthesize benchmarks into existing datasets. However, the synthetic programs are short, exceedingly simple and lacking diversity in their features. We develop BenchPress, the first ML compiler benchmark generator that can be directed within source code feature representations. BenchPress synthesizes executable functions by infilling code that conditions on the program's left and right context. BenchPress uses active learning to introduce new benchmarks with unseen features into the dataset of Grewe's et al. CPU vs GPU heuristic, improving its acquired performance by 50%. BenchPress targets features that has been impossible for other synthesizers to reach. In 3 feature spaces, we outperform human-written code from GitHub, CLgen, CLSmith and the SRCIROR mutator in targeting the features of Rodinia benchmarks. BenchPress steers generation with beam search over a feature-agnostic language model. We improve this with BenchDirect which utilizes a directed LM that infills programs by jointly observing source code context and the compiler features that are targeted. BenchDirect achieves up to 36% better accuracy in targeting the features of Rodinia benchmarks, it is 1.8x more likely to give an exact match and it speeds up execution time by up to 72% compared to BenchPress. Both our models produce code that is difficult to distinguish from human-written code. We conduct a Turing test which shows our models' synthetic benchmarks are labelled as 'human-written' as often as human-written code from GitHub.
Abstract（参考訳）: ハードウェアとソフトウェアの複雑さが指数関数的に増加するため、コンパイラエンジニアが手動で適切な最適化ヒューリスティックを見つけることは不可能になった。予測モデルは、人間の努力の少ない最適なヒューリスティックに近いことが示されているが、トレーニングする多様なベンチマークの不足によって制限されている。ジェネレーティブAIは、既存のデータセットにベンチマークを合成するために研究者によって使用されている。しかし、合成プログラムは短く、非常にシンプルであり、特徴に多様性がない。ソースコードの特徴表現内で指向できる最初のMLコンパイラベンチマークジェネレータであるBenchPressを開発した。 benchpressは、プログラムの左右のコンテキストの条件を満たすコードをインフィルすることで実行可能な機能を合成する。 benchpressはアクティブラーニングを使用して、groveなどのデータセットに未公開の機能を備えた新しいベンチマークを導入する。 CPU対GPUヒューリスティックで、取得したパフォーマンスを50%向上させた。 BenchPressは、他のシンセサイザーが到達できない機能をターゲットにしている。 3つの特徴空間では、Rodiniaベンチマークの機能をターゲットにして、GitHub、CLgen、CLSmith、SRCIROR mutatorからの人書きコードよりも優れています。特徴に依存しない言語モデル上でのビームサーチによるBenchPressステア生成。我々は、ソースコードコンテキストとターゲットとするコンパイラ機能を共同で観察することで、プログラムを埋め込む有向LMを利用するBenchDirectでこれを改善した。 BenchDirectは、Rodiniaベンチマークの機能をターゲットにする上で、最大で36%の精度を実現している。どちらのモデルも、人間が書いたコードと区別するのが難しいコードを生成します。私たちはチューリングテストを実施し、モデルの合成ベンチマークが、しばしばgithubのヒューマンライティングコードと同様に'ヒューマンライティング'とラベル付けされていることを示します。

関連論文リスト

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git [0.8397730500554048]
GitGoodBenchは、バージョン管理システム(VCS)タスク上でAIエージェントのパフォーマンスを評価するための新しいベンチマークである。私たちのベンチマークでは、オープンソースのPython、Java、Kotlinリポジトリから抽出された3つのコアGitシナリオについて取り上げています。我々は、カスタムツールを備えたGPT-4oを用いて、ベンチマークのプロトタイプバージョン上でベースライン性能を確立し、全体的な21.1%の解決率を達成する。
論文参考訳（メタデータ） (2025-05-28T16:56:11Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。 SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文参考訳（メタデータ） (2025-04-11T17:08:02Z)
ThrowBench: Benchmarking LLMs by Predicting Runtime Exceptions [4.852619858744873]
大規模言語モデル(LLM)は、コード理解と合成の驚くべき能力を示している。 4つの異なるプログラミング言語で書かれた2,400以上の短いユーザ記述プログラムからなるベンチマークであるThrowBenchを紹介する。我々は6つの最先端コードLLMのベンチマーク評価を行い、19～38%(F1スコア)の適度なパフォーマンスを確認した。
論文参考訳（メタデータ） (2025-03-06T09:22:23Z)
TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators [59.625889531331815]
Tritonは、効率的なGPUカーネルを構築するために設計されたハイレベルなPythonライクな言語である。従来のコード生成のための大規模言語モデル(LLM)の進歩にもかかわらず、これらのモデルは正確でパフォーマンスに最適化されたトリトンコードを生成するのに苦労している。本稿では,Triton演算子生成のための総合ベンチマークであるTritonBenchを紹介する。
論文参考訳（メタデータ） (2025-02-20T17:21:27Z)
AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文参考訳（メタデータ） (2025-01-28T18:51:24Z)
CYCLE: Learning to Self-Refine the Code Generation [19.71833229434497]
本稿では,CYCLEフレームワークを提案する。 350M, 1B, 2B, 3B のベンチマークで, パラメータ数が異なる CYCLE の4つの変種を実装した。その結果、CYCLEは一度のコード生成の品質を維持し、時には改善すると同時に、コードLMの自己抑制能力を大幅に改善することがわかった。
論文参考訳（メタデータ） (2024-03-27T16:45:02Z)
Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。 Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文参考訳（メタデータ） (2023-09-25T15:42:18Z)
SLaDe: A Portable Small Language Model Decompiler for Optimized Assembly [6.080751346188323]
本稿では,実世界のコード上で訓練されたシーケンス・ツー・シーケンス・トランスフォーマをベースとした小型言語モデルデコンパイラであるSLaDeを提案する。型推論を利用して、標準的な分析や最近のニューラルアプローチよりも読みやすく正確なプログラムを生成する。
論文参考訳（メタデータ） (2023-05-21T17:31:39Z)
BenchPress: A Deep Active Benchmark Generator [7.194212461947882]
我々は,ソースコードの特徴空間表現にステアリング可能な,コンパイラ用の最初のMLベンチマークジェネレータであるBenchPressを開発した。 BenchPressは、空または既存のシーケンスの任意の部分に新しいコードを追加することで、コンパイル関数を合成する。 CLgenよりも10倍もユニークなOpenCLベンチマークをコンパイルし、より大きく、多種多様である。
論文参考訳（メタデータ） (2022-08-13T03:00:50Z)
Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文参考訳（メタデータ） (2022-08-11T17:41:08Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
Searching CUDA code autotuning spaces with hardware performance counters: data from benchmarks running on various GPU architectures [0.0]
我々は,パフォーマンス関連ソースコードパラメータを考慮に入れたベンチマークを開発し,GPUアーキテクチャのピークに近い性能に到達した。当社のフレームワークであるKernel Tuning Toolkitでは、複数のGPU上での時間とハードウェアパフォーマンスカウンタを測定し、5つのベンチマークの完全なチューニングスペースを測定しました。本稿では,検索者に対するロバストな評価や,他者との比較に用いたスクリプトについて詳述する。
論文参考訳（メタデータ） (2021-02-10T07:51:09Z)
Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文参考訳（メタデータ） (2020-07-09T17:59:06Z)
Synthesizer: Rethinking Self-Attention in Transformer Models [93.08171885200922]
ドット積の自己アテンションは、最先端のトランスフォーマーモデルでは不可欠である。本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。
論文参考訳（メタデータ） (2020-05-02T08:16:19Z)
AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文参考訳（メタデータ） (2020-04-30T11:08:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。