論文の概要: LLM4CBI: Taming LLMs to Generate Effective Test Programs for Compiler
Bug Isolation
- arxiv url: http://arxiv.org/abs/2307.00593v1
- Date: Sun, 2 Jul 2023 15:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 18:36:14.846448
- Title: LLM4CBI: Taming LLMs to Generate Effective Test Programs for Compiler
Bug Isolation
- Title(参考訳): LLM4CBI: コンパイラバグ分離のための効率的なテストプログラムを生成するためのLLMのモデリング
- Authors: Haoxin Tu, Zhide Zhou, He Jiang, Imam Nur Bani Yusuf, Yuxian Li,
Lingxiao Jiang
- Abstract要約: 既存のコンパイラのバグ分離アプローチは、通常、問題をテストプログラムの突然変異問題に変換する。
コンパイラのバグ分離に有効なテストプログラムを生成するために,LLM4CBIという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 11.296080835953752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compiler bugs pose a significant threat to safety-critical applications, and
promptly and effectively isolating these bugs is crucial for assuring the
quality of compilers. However, the limited availability of debugging
information on reported bugs complicates the compiler bug isolation task.
Existing compiler bug isolation approaches typically convert the problem into a
test program mutation problem, but they are still limited by ineffective
mutation strategies or high human effort requirements. Drawing inspiration from
the recent progress of pre-trained Large Language Models (LLMs), such as
ChatGPT, in code generation, we propose a new approach named LLM4CBI to tame
LLMs to generate effective test programs for compiler bug isolation. However,
using LLMs directly for test program mutation may not yield the desired results
due to the challenges associated with formulating precise prompts and selecting
specialized prompts. To overcome the challenges, three new components are
designed in LLM4CBI. (1) LLM4CBI utilizes a program complexity-guided prompt
production component, which leverages data and control flow analysis to
identify the most valuable variables and locations in programs for mutation.
(2) LLM4CBI employs a memorized prompt selection component, which adopts
reinforcement learning to select specialized prompts for mutating test programs
continuously. (3) A test program validation component is proposed to select
specialized feedback prompts to avoid repeating the same mistakes during the
mutation process. Compared with the state-of-the-art approaches (DiWi and
RecBi), our evaluation demonstrates the advantages of LLM4CBI: It isolates more
bugs, ranging from 13.6% to 90.9% in various settings, than the other
approaches. Additionally, we demonstrate that LLM4CBI is extensible, allowing
for easy integration with other LLMs.
- Abstract(参考訳): コンパイラのバグは、セーフティクリティカルなアプリケーションにとって重大な脅威となり、これらのバグを迅速かつ効果的に分離することは、コンパイラの品質の確保に不可欠である。
しかし、報告されたバグのデバッグ情報が限られているため、コンパイラのバグ分離タスクが複雑になる。
既存のコンパイラのバグ分離アプローチは、通常、問題をテストプログラムの突然変異問題に変換するが、効果のない突然変異戦略や高い人的労力要件によって制限される。
コード生成におけるChatGPTなどの事前学習された大規模言語モデル(LLM)の最近の進歩から着想を得て,LLM4CBIと呼ばれる新しいアプローチを提案し,コンパイラバグ分離のための効率的なテストプログラムを生成する。
しかし、試験プログラムの突然変異にLSMを直接使用すると、正確なプロンプトの定式化や特別なプロンプトの選択に関連する課題のために、望ましい結果が得られない可能性がある。
この課題を克服するために、3つの新しいコンポーネントがllm4cbiで設計されている。
1) LLM4CBIは, プログラムの複雑化誘導型プロンプト生産成分を利用して, データと制御フロー解析を利用して, 突然変異のためのプログラムにおいて最も重要な変数や位置を同定する。
2) LLM4CBIは, テストプログラムを連続的に変更するための特別なプロンプトを選択するために, 強化学習を採用した記憶付きプロンプト選択成分を用いる。
3) 突然変異過程中に同じ間違いを繰り返すのを避けるために、特別なフィードバックプロンプトを選択するためのテストプログラム検証コンポーネントを提案する。
最先端のアプローチ(diwiとrecbi)と比較すると、llm4cbiの利点を実証する: 他のアプローチよりも、さまざまな設定で13.6%から90.9%のバグを分離する。
さらに,LLM4CBIは拡張可能であり,他のLLMと容易に統合できることを示す。
関連論文リスト
- PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [89.13051256657995]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - Evaluating Diverse Large Language Models for Automatic and General Bug
Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。
提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文 参考訳(メタデータ) (2023-11-08T08:42:30Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。