論文の概要: From Bias To Improved Prompts: A Case Study of Bias Mitigation of Clone Detection Models
- arxiv url: http://arxiv.org/abs/2505.05679v1
- Date: Thu, 08 May 2025 22:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.100741
- Title: From Bias To Improved Prompts: A Case Study of Bias Mitigation of Clone Detection Models
- Title(参考訳): バイアスから改善プロンプトへ:クローン検出モデルのバイアス軽減を事例として
- Authors: QiHong Chen, Lianghao Jiang, Iftekhar Ahmed,
- Abstract要約: クローンコード検出のための生成型大規模言語モデルの適合性を評価する。
LLMの既知の問題は、これらのモデルの性能が与えられた入力プロンプトに基づいて変動する、バイアスを誘発する可能性である。
我々の分析では、8つの異なるプロンプトバイアスのカテゴリを同定し、これらのバイアスを活用する方法により、F1スコアにおいて最大10.81%の大幅な改善が得られた。
- 参考スコア(独自算出の注目度): 5.874997638802244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The issue of clone code has persisted in software engineering, primarily because developers often copy and paste code segments. This common practice has elevated the importance of clone code detection, garnering attention from both software engineering researchers and industry professionals. Their collective concern arises from the potential negative impacts that clone code can have on software quality. The emergence of powerful Generative Large Language Models (LLMs) like ChatGPT has exacerbated the clone code problem. These advanced models possess code generation capabilities that can inadvertently create code clones. As a result, the need to detect clone code has become more critical than ever before. In this study, we assess the suitability of LLMs for clone code detection. Our results demonstrate that the Palm model achieved a high F1 score of 89.30 for the avatar dataset and 86.41 for the poolC dataset. A known issue with LLMs is their susceptibility to prompt bias, where the performance of these models fluctuates based on the input prompt provided. In our research, we delve deeper into the reasons behind these fluctuations and propose a framework to mitigate prompt bias for clone detection. Our analysis identifies eight distinct categories of prompt bias, and our devised approach leveraging these biases yields a significant improvement of up to 10.81% in the F1 score. These findings underscore the substantial impact of prompt bias on the performance of LLMs and highlight the potential for leveraging model errors to alleviate this bias.
- Abstract(参考訳): クローンコードの問題は、主に開発者がコードセグメントをコピー&ペーストするので、ソフトウェア工学において継続している。
この一般的なプラクティスは、クローンコード検出の重要性を高め、ソフトウェア工学研究者と業界専門家の両方から注目を集めている。
彼らの集団的な懸念は、クローンコードがソフトウェアの品質に負の影響をもたらす可能性があることに起因する。
ChatGPTのような強力な生成型大規模言語モデル(LLM)の出現は、クローンコードの問題を悪化させた。
これらの高度なモデルには、コードクローンを不注意に作成できるコード生成機能がある。
その結果、クローンコードを検出する必要性はこれまで以上に重要になっている。
本研究では,クローンコード検出におけるLLMの適合性を評価する。
その結果、Palmモデルはアバターデータセットでは89.30得点、プールCデータセットでは86.41得点を達成した。
LLMの既知の問題は、これらのモデルの性能が与えられた入力プロンプトに基づいて変動する、バイアスを誘発する可能性である。
本研究では,これらのゆらぎの原因を深く掘り下げ,クローン検出の急激なバイアスを軽減する枠組みを提案する。
我々の分析では、8つの異なるプロンプトバイアスのカテゴリを同定し、これらのバイアスを活用する方法により、F1スコアにおいて最大10.81%の大幅な改善が得られた。
これらの知見は, LLMの性能に対する即時バイアスの影響を浮き彫りにし, このバイアスを軽減するためにモデル誤差を活用する可能性を強調した。
関連論文リスト
- Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Focused-DPO: Enhancing Code Generation Through Focused Preference Optimization on Error-Prone Points [51.40935517552926]
Focused-DPOは、優先度最適化を重要なエラー発生箇所に向けることで、コード生成を強化するフレームワークである。
エラーを起こしやすい点に焦点を当てることで、Focused-DPOはモデル生成コードの正確性と機能を向上させる。
論文 参考訳(メタデータ) (2025-02-17T06:16:02Z) - $\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。
単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文 参考訳(メタデータ) (2024-09-09T02:07:41Z) - Assessing the Code Clone Detection Capability of Large Language Models [0.0]
評価には、さまざまなクローンタイプのコードペアと類似度のレベルでモデルをテストすることが含まれる。
GPT-4はすべてのクローンタイプでGPT-3.5を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-02T16:20:44Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Bias Testing and Mitigation in LLM-based Code Generation [27.997232692723767]
本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。
広範に研究されている5つのLLMのコードにおけるバイアスに関する実証的研究を行った。
現在のコード生成シナリオで一般的に使用される5つのバイアス緩和プロンプトについて検討する。
論文 参考訳(メタデータ) (2023-09-03T07:14:49Z) - Towards Understanding the Capability of Large Language Models on Code
Clone Detection: A Survey [40.99060616674878]
大規模言語モデル(LLM)は、様々なコード関連の知識を持ち、様々なソフトウェア工学の課題に対して汎用的である。
本稿では,クローン検出のためのLLMを包括的に評価し,異なるクローンタイプ,言語,プロンプトを網羅する。
従来の手法を超越した複雑な意味的クローンの検出において,高度なLCMが優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-02T14:56:01Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。