Fugu-MT 論文翻訳(概要): Input-Gen: Guided Generation of Stateful Inputs for Testing, Tuning, and Training

論文の概要: Input-Gen: Guided Generation of Stateful Inputs for Testing, Tuning, and Training

arxiv url: http://arxiv.org/abs/2406.08843v1
Date: Thu, 13 Jun 2024 06:09:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 21:08:42.563752
Title: Input-Gen: Guided Generation of Stateful Inputs for Testing, Tuning, and Training
Title（参考訳）: Input-Gen: テスト、チューニング、トレーニングのためのステートフルな入力のガイド生成
Authors: Ivan R. Ivanov, Joachim Meyer, Aiden Grossman, William S. Moses, Johannes Doerfert,
Abstract要約: 入力は、コードのように、大規模に自動生成できることを示します。当社のアプローチでは,ComPileデータセットモジュールの90%に対して,初期メモリ状態を含む有効な入力を生成することができる。
参考スコア（独自算出の注目度）: 1.660242118349614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The size and complexity of software applications is increasing at an accelerating pace. Source code repositories (along with their dependencies) require vast amounts of labor to keep them tested, maintained, and up to date. As the discipline now begins to also incorporate automatically generated programs, automation in testing and tuning is required to keep up with the pace - let alone reduce the present level of complexity. While machine learning has been used to understand and generate code in various contexts, machine learning models themselves are trained almost exclusively on static code without inputs, traces, or other execution time information. This lack of training data limits the ability of these models to understand real-world problems in software. In this work we show that inputs, like code, can be generated automatically at scale. Our generated inputs are stateful, and appear to faithfully reproduce the arbitrary data structures and system calls required to rerun a program function. By building our tool within the compiler, it both can be applied to arbitrary programming languages and architectures and can leverage static analysis and transformations for improved performance. Our approach is able to produce valid inputs, including initial memory states, for 90% of the ComPile dataset modules we explored, for a total of 21.4 million executable functions. Further, we find that a single generated input results in an average block coverage of 37%, whereas guided generation of five inputs improves it to 45%.
Abstract（参考訳）: ソフトウェアアプリケーションのサイズと複雑さは、加速するペースで増加しています。ソースコードリポジトリ(と依存関係)は、テスト、メンテナンス、最新の状態を維持するために膨大な労力を必要とします。規律が自動的に生成されたプログラムを取り入れ始めた今、テストとチューニングの自動化は、現在の複雑さのレベルを下げるだけでなく、ペースに追いつくために必要です。機械学習はさまざまなコンテキストにおけるコードの理解と生成に使用されているが、マシンラーニングモデル自体は、入力、トレース、その他の実行時間情報なしで、ほとんど静的コードでトレーニングされている。このトレーニングデータの欠如は、これらのモデルがソフトウェアにおける現実の問題を理解する能力を制限する。この研究では、コードのようにインプットが大規模に自動生成できることを示します。生成された入力はステートフルであり、プログラム関数の再実行に必要な任意のデータ構造とシステムコールを忠実に再現しているように見える。コンパイラ内でツールを構築することで、どちらも任意のプログラミング言語やアーキテクチャに適用でき、静的解析と変換を利用してパフォーマンスを向上させることができます。当社のアプローチでは,調査したComPileデータセットモジュールの90%に対して,メモリの初期状態を含む有効なインプットを,合計21.4万の実行可能な関数に対して生成することが可能です。さらに、1つの生成した入力が平均ブロックカバレッジを37%、ガイドされた5つの入力が45%向上することがわかった。

関連論文リスト

AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文参考訳（メタデータ） (2025-12-23T19:57:49Z)
Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.11447353341926]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文参考訳（メタデータ） (2025-12-21T00:49:40Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
LLM Benchmarking with LLaMA2: Evaluating Code Development Performance Across Multiple Programming Languages [0.1906498126334485]
本稿では,Llama 2-70Bモデルがプログラミング言語で書かれた科学アプリケーションを自動化する能力について述べる。コード、ドキュメンテーション、ユニットテストを生成するためのモデルの能力と、既存のコードをプログラミング言語間で翻訳する能力を評価します。以上の結果から,Llama 2-70Bは,より単純な数値処理のために,構文的に正しい関数コードを生成することが多いが,より複雑で並列化された,あるいは分散計算ではかなりの困難に直面することが示唆された。
論文参考訳（メタデータ） (2025-03-24T23:46:14Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Joint Verification and Refinement of Language Models for Safety-Constrained Planning [25.390607788572535]
大規模言語モデルは、ロボットタスクを実行するために自然言語記述からプログラムを生成することができる。しかしながら、これらの生成されたプログラムは、しばしば外部から与えられたタスク仕様に違反するエラーを含む。本稿では,生成したロボットプログラムを自動表現に変換する手法を開発し,タスク関連安全仕様に対して検証する。
論文参考訳（メタデータ） (2024-10-18T21:16:30Z)
Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。 Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文参考訳（メタデータ） (2023-09-25T15:42:18Z)
Incrementally-Computable Neural Networks: Efficient Inference for Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-07-27T16:30:27Z)
Modelling Concurrency Bugs Using Machine Learning [0.0]
このプロジェクトは、一般的な機械学習アプローチと最近の機械学習アプローチを比較することを目的としている。我々は、実生活(同時)プログラムをシミュレートする範囲で生成する合成データセットを定義する。各種機械学習モデルモデルの基本的な限界に関する仮説を定式化する。
論文参考訳（メタデータ） (2023-05-08T17:30:24Z)
RunBugRun -- An Executable Dataset for Automated Program Repair [15.670905650869704]
プログラム競合サイトに提出された45万個の小さなバグ/修正プログラムペアの完全な実行可能データセットを提示する。プログラムをコンパイルし、安全に実行し、テストするためのインフラと、きめ細かいバグタイプのラベルを提供します。
論文参考訳（メタデータ） (2023-04-03T16:02:00Z)
Genetic Micro-Programs for Automated Software Testing with Large Path Coverage [0.0]
既存のソフトウェアテスト技術は、検索アルゴリズムを利用して、高い実行パスカバレッジを実現する入力値を見つけることに重点を置いている。本稿では、進化したソリューションが入力値ではなく、繰り返し入力値を生成するマイクロプログラムである新しい遺伝的プログラミングフレームワークの概要を述べる。我々のアプローチは多くの異なるソフトウェアシステムに適用できるような一般化が可能であり、そのため、トレーニングされた特定のソフトウェアコンポーネントのみに特化していない、と我々は主張する。
論文参考訳（メタデータ） (2023-02-14T18:47:21Z)
NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-07T11:25:21Z)
Learning to Improve Code Efficiency [27.768476489523163]
Google Code Jamコンペティションから、大規模な競合プログラミングデータセットを分析します。効率的なコードは確かに稀であり、中央値ランタイムと90分の1のソリューションとでは2倍の違いがある。我々は、機械学習を用いてヒントの形で規範的なフィードバックを自動的に提供し、プログラマが高性能なコードを書くよう誘導することを提案する。
論文参考訳（メタデータ） (2022-08-09T01:28:30Z)
Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。 Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文参考訳（メタデータ） (2022-02-08T23:16:31Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
Controlled time series generation for automotive software-in-the-loop testing using GANs [0.5352699766206808]
オートマチックメカトロニクスシステムのテストは、部分的にはソフトウェア・イン・ザ・ループ・アプローチを使用し、システム・アンダー・テストのインプットを体系的にカバーすることが大きな課題である。ひとつのアプローチは、テストプロセスの制御とフィードバックを容易にする入力シーケンスを作成することだが、現実的なシナリオにシステムを公開できない。もうひとつは、現実を説明できるフィールド操作から記録されたシーケンスを再生するが、広く使われるには十分なキャパシティの十分なラベル付きデータセットを収集する必要があるため、コストがかかる。この研究は、GAN(Generative Adrial Networks)のよく知られた教師なし学習フレームワークを適用して、記録された車内データのラベルなしデータセットを学習する。
論文参考訳（メタデータ） (2020-02-16T16:19:29Z)
Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文参考訳（メタデータ） (2019-12-27T21:28:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。