論文の概要: Input-Gen: Guided Generation of Stateful Inputs for Testing, Tuning, and Training
- arxiv url: http://arxiv.org/abs/2406.08843v1
- Date: Thu, 13 Jun 2024 06:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:08:42.563752
- Title: Input-Gen: Guided Generation of Stateful Inputs for Testing, Tuning, and Training
- Title(参考訳): Input-Gen: テスト、チューニング、トレーニングのためのステートフルな入力のガイド生成
- Authors: Ivan R. Ivanov, Joachim Meyer, Aiden Grossman, William S. Moses, Johannes Doerfert,
- Abstract要約: 入力は、コードのように、大規模に自動生成できることを示します。
当社のアプローチでは,ComPileデータセットモジュールの90%に対して,初期メモリ状態を含む有効な入力を生成することができる。
- 参考スコア(独自算出の注目度): 1.660242118349614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The size and complexity of software applications is increasing at an accelerating pace. Source code repositories (along with their dependencies) require vast amounts of labor to keep them tested, maintained, and up to date. As the discipline now begins to also incorporate automatically generated programs, automation in testing and tuning is required to keep up with the pace - let alone reduce the present level of complexity. While machine learning has been used to understand and generate code in various contexts, machine learning models themselves are trained almost exclusively on static code without inputs, traces, or other execution time information. This lack of training data limits the ability of these models to understand real-world problems in software. In this work we show that inputs, like code, can be generated automatically at scale. Our generated inputs are stateful, and appear to faithfully reproduce the arbitrary data structures and system calls required to rerun a program function. By building our tool within the compiler, it both can be applied to arbitrary programming languages and architectures and can leverage static analysis and transformations for improved performance. Our approach is able to produce valid inputs, including initial memory states, for 90% of the ComPile dataset modules we explored, for a total of 21.4 million executable functions. Further, we find that a single generated input results in an average block coverage of 37%, whereas guided generation of five inputs improves it to 45%.
- Abstract(参考訳): ソフトウェアアプリケーションのサイズと複雑さは、加速するペースで増加しています。
ソースコードリポジトリ(と依存関係)は、テスト、メンテナンス、最新の状態を維持するために膨大な労力を必要とします。
規律が自動的に生成されたプログラムを取り入れ始めた今、テストとチューニングの自動化は、現在の複雑さのレベルを下げるだけでなく、ペースに追いつくために必要です。
機械学習はさまざまなコンテキストにおけるコードの理解と生成に使用されているが、マシンラーニングモデル自体は、入力、トレース、その他の実行時間情報なしで、ほとんど静的コードでトレーニングされている。
このトレーニングデータの欠如は、これらのモデルがソフトウェアにおける現実の問題を理解する能力を制限する。
この研究では、コードのようにインプットが大規模に自動生成できることを示します。
生成された入力はステートフルであり、プログラム関数の再実行に必要な任意のデータ構造とシステムコールを忠実に再現しているように見える。
コンパイラ内でツールを構築することで、どちらも任意のプログラミング言語やアーキテクチャに適用でき、静的解析と変換を利用してパフォーマンスを向上させることができます。
当社のアプローチでは,調査したComPileデータセットモジュールの90%に対して,メモリの初期状態を含む有効なインプットを,合計21.4万の実行可能な関数に対して生成することが可能です。
さらに、1つの生成した入力が平均ブロックカバレッジを37%、ガイドされた5つの入力が45%向上することがわかった。
関連論文リスト
- Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Modelling Concurrency Bugs Using Machine Learning [0.0]
このプロジェクトは、一般的な機械学習アプローチと最近の機械学習アプローチを比較することを目的としている。
我々は、実生活(同時)プログラムをシミュレートする範囲で生成する合成データセットを定義する。
各種機械学習モデルモデルの基本的な限界に関する仮説を定式化する。
論文 参考訳(メタデータ) (2023-05-08T17:30:24Z) - RunBugRun -- An Executable Dataset for Automated Program Repair [15.670905650869704]
プログラム競合サイトに提出された45万個の小さなバグ/修正プログラムペアの完全な実行可能データセットを提示する。
プログラムをコンパイルし、安全に実行し、テストするためのインフラと、きめ細かいバグタイプのラベルを提供します。
論文 参考訳(メタデータ) (2023-04-03T16:02:00Z) - Genetic Micro-Programs for Automated Software Testing with Large Path
Coverage [0.0]
既存のソフトウェアテスト技術は、検索アルゴリズムを利用して、高い実行パスカバレッジを実現する入力値を見つけることに重点を置いている。
本稿では、進化したソリューションが入力値ではなく、繰り返し入力値を生成するマイクロプログラムである新しい遺伝的プログラミングフレームワークの概要を述べる。
我々のアプローチは多くの異なるソフトウェアシステムに適用できるような一般化が可能であり、そのため、トレーニングされた特定のソフトウェアコンポーネントのみに特化していない、と我々は主張する。
論文 参考訳(メタデータ) (2023-02-14T18:47:21Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z) - Learning to Improve Code Efficiency [27.768476489523163]
Google Code Jamコンペティションから、大規模な競合プログラミングデータセットを分析します。
効率的なコードは確かに稀であり、中央値ランタイムと90分の1のソリューションとでは2倍の違いがある。
我々は、機械学習を用いてヒントの形で規範的なフィードバックを自動的に提供し、プログラマが高性能なコードを書くよう誘導することを提案する。
論文 参考訳(メタデータ) (2022-08-09T01:28:30Z) - Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。
Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文 参考訳(メタデータ) (2022-02-08T23:16:31Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - Controlled time series generation for automotive software-in-the-loop
testing using GANs [0.5352699766206808]
オートマチックメカトロニクスシステムのテストは、部分的にはソフトウェア・イン・ザ・ループ・アプローチを使用し、システム・アンダー・テストのインプットを体系的にカバーすることが大きな課題である。
ひとつのアプローチは、テストプロセスの制御とフィードバックを容易にする入力シーケンスを作成することだが、現実的なシナリオにシステムを公開できない。
もうひとつは、現実を説明できるフィールド操作から記録されたシーケンスを再生するが、広く使われるには十分なキャパシティの十分なラベル付きデータセットを収集する必要があるため、コストがかかる。
この研究は、GAN(Generative Adrial Networks)のよく知られた教師なし学習フレームワークを適用して、記録された車内データのラベルなしデータセットを学習する。
論文 参考訳(メタデータ) (2020-02-16T16:19:29Z) - Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。
そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文 参考訳(メタデータ) (2019-12-27T21:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。