Fugu-MT 論文翻訳(概要): LLM4CBI: Taming LLMs to Generate Effective Test Programs for Compiler Bug Isolation

論文の概要: LLM4CBI: Taming LLMs to Generate Effective Test Programs for Compiler Bug Isolation

arxiv url: http://arxiv.org/abs/2307.00593v1
Date: Sun, 2 Jul 2023 15:20:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 18:36:14.846448
Title: LLM4CBI: Taming LLMs to Generate Effective Test Programs for Compiler Bug Isolation
Title（参考訳）: LLM4CBI: コンパイラバグ分離のための効率的なテストプログラムを生成するためのLLMのモデリング
Authors: Haoxin Tu, Zhide Zhou, He Jiang, Imam Nur Bani Yusuf, Yuxian Li, Lingxiao Jiang
Abstract要約: 既存のコンパイラのバグ分離アプローチは、通常、問題をテストプログラムの突然変異問題に変換する。コンパイラのバグ分離に有効なテストプログラムを生成するために,LLM4CBIという新しい手法を提案する。
参考スコア（独自算出の注目度）: 11.296080835953752
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Compiler bugs pose a significant threat to safety-critical applications, and promptly and effectively isolating these bugs is crucial for assuring the quality of compilers. However, the limited availability of debugging information on reported bugs complicates the compiler bug isolation task. Existing compiler bug isolation approaches typically convert the problem into a test program mutation problem, but they are still limited by ineffective mutation strategies or high human effort requirements. Drawing inspiration from the recent progress of pre-trained Large Language Models (LLMs), such as ChatGPT, in code generation, we propose a new approach named LLM4CBI to tame LLMs to generate effective test programs for compiler bug isolation. However, using LLMs directly for test program mutation may not yield the desired results due to the challenges associated with formulating precise prompts and selecting specialized prompts. To overcome the challenges, three new components are designed in LLM4CBI. (1) LLM4CBI utilizes a program complexity-guided prompt production component, which leverages data and control flow analysis to identify the most valuable variables and locations in programs for mutation. (2) LLM4CBI employs a memorized prompt selection component, which adopts reinforcement learning to select specialized prompts for mutating test programs continuously. (3) A test program validation component is proposed to select specialized feedback prompts to avoid repeating the same mistakes during the mutation process. Compared with the state-of-the-art approaches (DiWi and RecBi), our evaluation demonstrates the advantages of LLM4CBI: It isolates more bugs, ranging from 13.6% to 90.9% in various settings, than the other approaches. Additionally, we demonstrate that LLM4CBI is extensible, allowing for easy integration with other LLMs.
Abstract（参考訳）: コンパイラのバグは、セーフティクリティカルなアプリケーションにとって重大な脅威となり、これらのバグを迅速かつ効果的に分離することは、コンパイラの品質の確保に不可欠である。しかし、報告されたバグのデバッグ情報が限られているため、コンパイラのバグ分離タスクが複雑になる。既存のコンパイラのバグ分離アプローチは、通常、問題をテストプログラムの突然変異問題に変換するが、効果のない突然変異戦略や高い人的労力要件によって制限される。コード生成におけるChatGPTなどの事前学習された大規模言語モデル(LLM)の最近の進歩から着想を得て,LLM4CBIと呼ばれる新しいアプローチを提案し,コンパイラバグ分離のための効率的なテストプログラムを生成する。しかし、試験プログラムの突然変異にLSMを直接使用すると、正確なプロンプトの定式化や特別なプロンプトの選択に関連する課題のために、望ましい結果が得られない可能性がある。この課題を克服するために、3つの新しいコンポーネントがllm4cbiで設計されている。 1) LLM4CBIは, プログラムの複雑化誘導型プロンプト生産成分を利用して, データと制御フロー解析を利用して, 突然変異のためのプログラムにおいて最も重要な変数や位置を同定する。 2) LLM4CBIは, テストプログラムを連続的に変更するための特別なプロンプトを選択するために, 強化学習を採用した記憶付きプロンプト選択成分を用いる。 3) 突然変異過程中に同じ間違いを繰り返すのを避けるために、特別なフィードバックプロンプトを選択するためのテストプログラム検証コンポーネントを提案する。最先端のアプローチ(diwiとrecbi)と比較すると、llm4cbiの利点を実証する: 他のアプローチよりも、さまざまな設定で13.6%から90.9%のバグを分離する。さらに,LLM4CBIは拡張可能であり,他のLLMと容易に統合できることを示す。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Improving Compiler Bug Isolation by Leveraging Large Language Models [14.679589768900621]
本稿では,AutoCBIという新しいコンパイラバグ分離手法を提案する。我々は、広く使われているGCCおよびLLVMコンパイラの120の現実世界バグに対して、最先端のアプローチ(DiWi、RecBi、FuseFL)に対してAutoCBIを評価した。特に、GCC/LLVMの上位1位では、AutoCBIは66.67%/69.23%、300%/340%、100%/57.14%のバグをRecBi、DiWi、FuseFLより分離している。
論文参考訳（メタデータ） (2025-06-21T09:09:30Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Program Slicing in the Era of Large Language Models [7.990456190723922]
プログラムスライシングはソフトウェア工学において重要なテクニックであり、開発者は関連するコードの部分を分離することができる。本研究では,大規模言語モデル(LLM)の静的スライシングおよび動的プログラムスライシングへの応用について検討する。
論文参考訳（メタデータ） (2024-09-19T00:07:56Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Testing LLMs on Code Generation with Varying Levels of Prompt Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文参考訳（メタデータ） (2023-11-10T23:41:41Z)
Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文参考訳（メタデータ） (2023-11-08T08:42:30Z)
Towards Generating Functionally Correct Code Edits from Natural Language Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文参考訳（メタデータ） (2023-04-07T18:58:33Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。