Fugu-MT 論文翻訳(概要): LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

論文の概要: LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

arxiv url: http://arxiv.org/abs/2503.20578v1
Date: Wed, 26 Mar 2025 14:25:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:47.200346
Title: LLPut: Investigating Large Language Models for Bug Report-Based Input Generation
Title（参考訳）: LLPut: バグレポートに基づく入力生成のための大規模言語モデルの検討
Authors: Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman,
Abstract要約: エラーを引き起こすインプットは、ソフトウェアバグの診断と分析において重要な役割を担います。従来の研究では、様々な自然言語処理(NLP)技術を利用して自動入力抽出を行っている。大規模言語モデル (LLMs) の出現により、重要な研究課題が生じる: ジェネレーティブLLMは、バグレポートから障害誘発インプットを効果的に抽出できるのか?
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Failure-inducing inputs play a crucial role in diagnosing and analyzing software bugs. Bug reports typically contain these inputs, which developers extract to facilitate debugging. Since bug reports are written in natural language, prior research has leveraged various Natural Language Processing (NLP) techniques for automated input extraction. With the advent of Large Language Models (LLMs), an important research question arises: how effectively can generative LLMs extract failure-inducing inputs from bug reports? In this paper, we propose LLPut, a technique to empirically evaluate the performance of three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in extracting relevant inputs from bug reports. We conduct an experimental evaluation on a dataset of 206 bug reports to assess the accuracy and effectiveness of these models. Our findings provide insights into the capabilities and limitations of generative LLMs in automated bug diagnosis.
Abstract（参考訳）: エラーを引き起こすインプットは、ソフトウェアバグの診断と分析において重要な役割を担います。バグレポートには一般的にこれらのインプットが含まれており、デバッギングを容易にするために開発者が抽出する。バグレポートは自然言語で書かれており、これまでは様々な自然言語処理(NLP)技術を用いて自動入力抽出を行っている。大規模言語モデル (LLMs) の出現により、重要な研究課題が生じる: ジェネレーティブLLMは、バグレポートから障害誘発インプットを効果的に抽出できるのか? 本稿では,LLPutを提案する。LLaMA,Qwen,Qwen-Coderの3つのオープンソース生成LDMの性能を実証的に評価し,バグレポートから関連するインプットを抽出する手法である。我々は,これらのモデルの精度と有効性を評価するために,206件のバグレポートのデータセットを実験的に評価する。自動バグ診断におけるジェネレーティブLSMの機能と限界について考察した。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Learning Software Bug Reports: A Systematic Literature Review [4.019641745947759]
機械学習(ML)は、バグレポートからの情報の理解、抽出、相関を自動化することを目的としている。その重要性は増しているが、この地域では包括的なレビューは行われていない。本稿では,1,825件の論文を網羅した体系的な文献レビューを行い,詳細な分析のために204件を選択した。
論文参考訳（メタデータ） (2025-07-06T15:17:59Z)
Buggin: Automatic intrinsic bugs classification model using NLP and ML [0.0]
本稿では、自然言語処理(NLP)技術を用いて、固有のバグを自動的に識別する。本稿では,バグレポートのタイトルと記述文に適用した2つの埋め込み手法であるseBERTとTF-IDFを用いる。結果として得られる埋め込みは、Support Vector Machine、Logistic Regression、Decision Tree、Random Forest、K-Nearest Neighborsといった、確立された機械学習アルゴリズムにフィードバックされる。
論文参考訳（メタデータ） (2025-04-02T16:23:08Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.92611389987991]
本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。 LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文参考訳（メタデータ） (2024-02-16T15:21:35Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文参考訳（メタデータ） (2023-11-08T08:42:30Z)
GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。 1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文参考訳（メタデータ） (2023-10-24T23:45:57Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文参考訳（メタデータ） (2023-05-19T15:19:44Z)
Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。 LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文参考訳（メタデータ） (2022-09-23T10:50:47Z)
Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文参考訳（メタデータ） (2020-06-22T21:56:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。