論文の概要: Beyond ChatGPT: Enhancing Software Quality Assurance Tasks with Diverse LLMs and Validation Techniques
- arxiv url: http://arxiv.org/abs/2409.01001v1
- Date: Mon, 2 Sep 2024 07:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:59:10.385913
- Title: Beyond ChatGPT: Enhancing Software Quality Assurance Tasks with Diverse LLMs and Validation Techniques
- Title(参考訳): チャットGPTを超えて - ソフトウェア品質保証タスクを多言語 LLM とバリデーション技術で強化する
- Authors: Ratnadira Widyasari, David Lo, Lizi Liao,
- Abstract要約: 本稿では,複数の大規模言語モデル(LLM)が2つのSQAタスク(障害局所化と脆弱性検出)にまたがる機能について検討する。
LLMの結果を組み合わせる投票機構を実装することで,両タスクにおいてGPT-3.5よりも10%以上の改善を実現した。
このアプローチにより、障害のローカライゼーションが16%、脆弱性検出が12%、GPT-3.5が4%向上した。
- 参考スコア(独自算出の注目度): 14.230480872339463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancement of Large Language Models (LLMs), their application in Software Quality Assurance (SQA) has increased. However, the current focus of these applications is predominantly on ChatGPT. There remains a gap in understanding the performance of various LLMs in this critical domain. This paper aims to address this gap by conducting a comprehensive investigation into the capabilities of several LLMs across two SQA tasks: fault localization and vulnerability detection. We conducted comparative studies using GPT-3.5, GPT-4o, and four other publicly available LLMs (LLaMA-3-70B, LLaMA-3-8B, Gemma-7B, and Mixtral-8x7B), to evaluate their effectiveness in these tasks. Our findings reveal that several LLMs can outperform GPT-3.5 in both tasks. Additionally, even the lower-performing LLMs provided unique correct predictions, suggesting the potential of combining different LLMs' results to enhance overall performance. By implementing a voting mechanism to combine the LLMs' results, we achieved more than a 10% improvement over the GPT-3.5 in both tasks. Furthermore, we introduced a cross-validation approach to refine the LLM answer by validating one LLM answer against another using a validation prompt. This approach led to performance improvements of 16% in fault localization and 12% in vulnerability detection compared to the GPT-3.5, with a 4% improvement compared to the best-performed LLMs. Our analysis also indicates that the inclusion of explanations in the LLMs' results affects the effectiveness of the cross-validation technique.
- Abstract(参考訳): LLM(Large Language Models)の進歩に伴い、ソフトウェア品質保証(Software Quality Assurance, SQA)への応用が増加している。
しかし、これらのアプリケーションの現在の焦点は、主にChatGPTに焦点を当てている。
この重要な領域では、様々なLLMの性能を理解することにはまだギャップがある。
本稿では,2つのSQAタスク(障害局所化と脆弱性検出)にまたがる複数のLSMの能力に関する包括的調査を行うことにより,このギャップに対処することを目的とする。
GPT-3.5, GPT-4o, および他の4つのLLM(LLaMA-3-70B, LLaMA-3-8B, Gemma-7B, Mixtral-8x7B)を用いて比較検討を行い, これらの課題の有効性を検討した。
以上の結果より,複数のLDMがGPT-3.5より優れていることが示唆された。
さらに、低性能のLLMでさえ独自の正しい予測を提供し、異なるLLMの結果を組み合わせて全体的な性能を高める可能性を示唆した。
LLMの結果を組み合わせる投票機構を実装することで,両タスクにおいてGPT-3.5よりも10%以上の改善を実現した。
さらに、検証プロンプトを用いて一方のLSM回答を他方に対して検証することにより、LCM回答を洗練するためのクロスバリデーション手法を導入した。
このアプローチにより、障害のローカライゼーションが16%、脆弱性検出が12%、GPT-3.5が4%向上した。
また, LLMの結果に説明文を組み込むことが, クロスバリデーション手法の有効性に影響を与えることも示唆した。
関連論文リスト
- Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents [25.825941077332182]
文脈内意思決定は、人工知能の重要な能力である。
本稿では,Dueling Bandits (DB) の文脈における意思決定者としてのLarge Language Models (LLMs) の性能について検討する。
論文 参考訳(メタデータ) (2024-07-02T02:18:14Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。
我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。
実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Enhancing Fault Detection for Large Language Models via Mutation-Based Confidence Smoothing [24.55745161068782]
大きな言語モデル(LLM)の欠点を素早く明らかにする方法は重要だが、難しい。
既存の故障検出手法はLLMではうまく動作しない。
そこで本研究では,Mutation-based prediction Confidence Smoothing method for LLMsを提案する。
論文 参考訳(メタデータ) (2024-04-14T07:06:12Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
本研究では,ゲーム理論のレンズを用いた大規模言語モデル(LLM)の意思決定能力について検討する。
マルチエージェント環境におけるLPMのゲーミング能力を評価するGAMA($gamma$)-Benchを紹介する。
$gamma$-Benchは8つの古典的なマルチエージェントゲームと、LLMのパフォーマンスを定量的に評価するために特別に設計されたスコアリングスキームを含んでいる。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination
Detection with Weakly Supervised Data [1.3981625092173873]
本稿では,LLMの幻覚検出システムについて述べる。
SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
論文 参考訳(メタデータ) (2024-02-20T11:01:39Z) - Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。
MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。
レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。
本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文 参考訳(メタデータ) (2023-10-03T14:51:34Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。