Fugu-MT 論文翻訳(概要): Leveraging LLMs for Semantic Conflict Detection via Unit Test Generation

論文の概要: Leveraging LLMs for Semantic Conflict Detection via Unit Test Generation

arxiv url: http://arxiv.org/abs/2507.06762v1
Date: Wed, 09 Jul 2025 11:38:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 17:37:43.566653
Title: Leveraging LLMs for Semantic Conflict Detection via Unit Test Generation
Title（参考訳）: 単体テスト生成による意味的衝突検出のためのLLMの活用
Authors: Nathalia Barbosa, Paulo Borba, Léuson Da Silva,
Abstract要約: 我々は、Code Llama 70Bをベースとした新しいテスト生成ツールSMATを提案し、統合する。 SMATはユニットテストの生成と実行に依存している: テストがベースバージョンで失敗し、開発者の修正バージョンをパスするが、他の開発者の変更とマージした後に再び失敗すると、セマンティックコンフリクトが示される。その結果,LLMベースのテスト生成は複雑なシナリオでは困難であり,計算コストも高いが,セマンティックコンフリクト検出の改善には有望な可能性があることが示唆された。
参考スコア（独自算出の注目度）: 1.201626478128059
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic conflicts arise when a developer introduces changes to a codebase that unintentionally affect the behavior of changes integrated in parallel by other developers. Traditional merge tools are unable to detect such conflicts, so complementary tools like SMAT have been proposed. SMAT relies on generating and executing unit tests: if a test fails on the base version, passes on a developer's modified version, but fails again after merging with another developer's changes, a semantic conflict is indicated. While SMAT is effective at detecting conflicts, it suffers from a high rate of false negatives, partly due to the limitations of unit test generation tools such as Randoop and Evosuite. To investigate whether large language models (LLMs) can overcome these limitations, we propose and integrate a new test generation tool based on Code Llama 70B into SMAT. We explore the model's ability to generate tests using different interaction strategies, prompt contents, and parameter configurations. Our evaluation uses two samples: a benchmark with simpler systems from related work, and a more significant sample based on complex, real-world systems. We assess the effectiveness of the new SMAT extension in detecting conflicts. Results indicate that, although LLM-based test generation remains challenging and computationally expensive in complex scenarios, there is promising potential for improving semantic conflict detection. -- Conflitos sem^anticos surgem quando um desenvolvedor introduz mudan\c{c}as em uma base de c\'odigo que afetam, de forma n~ao intencional, o comportamento de altera\c{c}~oes integradas em paralelo por outros desenvolvedores. Ferramentas tradicionais de merge n~ao conseguem detectar esse tipo de conflito, por isso ferramentas complementares como o SMAT foram propostas. O SMAT depende da gera\c{c}~ao e execu\c{c}~ao de testes de unidade: se um teste falha na vers~ao base, passa na vers~ao modificada por um desenvolvedor, mas volta a falhar ap\'os o merge com as mudan\c{c}as de outro desenvolvedor, um conflito sem^antico \'e identificado. Embora o SMAT seja eficaz na detec\c{c}~ao de conflitos, apresenta alta taxa de falsos negativos, em parte devido \`as limita\c{c}~oes das ferramentas de gera\c{c}~ao de testes como Randoop e Evosuite. Para investigar se modelos de linguagem de grande porte (LLMs) podem superar essas limita\c{c}~oes, propomos e integramos ao SMAT uma nova ferramenta de gera\c{c}~ao de testes baseada no Code Llama 70B. Exploramos a capacidade do modelo de gerar testes utilizando diferentes estrat\'egias de intera\c{c}~ao, conte\'udos de prompts e configura\c{c}~oes de par^ametros. Nossa avalia\c{c}~ao utiliza duas amostras: um benchmark com sistemas mais simples, usados em trabalhos relacionados, e uma amostra mais significativa baseada em sistemas complexos e reais. Avaliamos a efic\'acia da nova extens~ao do SMAT na detec\c{c}~ao de conflitos. Os resultados indicam que, embora a gera\c{c}~ao de testes por LLM em cen\'arios complexos ainda seja desafiadora e custosa computacionalmente, h\'a potencial promissor para aprimorar a detec\c{c}~ao de conflitos sem^anticos.
Abstract（参考訳）: 意味的な衝突は、開発者が他の開発者が統合した変更の振る舞いに意図せずに影響を及ぼすコードベースに変更を導入したときに起こる。従来のマージツールはこのような衝突を検出できないため、SMATのような補完ツールが提案されている。 SMATはユニットテストの生成と実行に依存している: テストがベースバージョンで失敗し、開発者の修正バージョンをパスするが、他の開発者の変更とマージした後に再び失敗すると、セマンティックコンフリクトが示される。 SMATは競合を検出するのに有効であるが、部分的にはRandoopやEvosuiteのような単体テスト生成ツールの制限のために、偽陰性の頻度が高い。言語モデル(LLM)がこれらの制限を克服できるかどうかを検討するため,Code Llama 70Bに基づく新しいテスト生成ツールをSMATに導入し,統合する。異なるインタラクション戦略、インテントのプロンプト、パラメータ設定を使って、モデルがテストを生成する能力について検討する。評価では、関連する作業からより単純なシステムを用いたベンチマークと、複雑な実世界のシステムに基づくより重要なサンプルの2つを用いている。コンフリクト検出における新たなSMAT拡張の有効性について検討した。その結果,LLMベースのテスト生成は複雑なシナリオでは困難であり,計算コストも高いが,セマンティックコンフリクト検出の改善には有望な可能性があることが示唆された。 Conflitos sem^anticos surgem quando um desenvolvedor introduz mudan\c{c}as em uma base de c\'odigo que afetam, de forma n~ao intencional, o comportamento de altera\c{c}~oes integradas em paralelo por outros desenvolvedores。 Ferramentas tradicionais de merge n~ao conseguem detectar esse tipo de conflito, por isso ferramentas complementares como o SMAT foram propostas。 O SMAT depende da gera\c{c}~ao e execu\c{c}~ao de testes de unidade: se um teste falha na vers~ao base, passa na vers~ao modificada por um desenvolvedor, mas volta a falhar ap\'os o merge com as mudan\c{c}as de outro desenvolvedor, um conflito sem^antico \'e identificado。 Embora o SMAT seja eficaz na detec\c{c}~ao de conflitos, apresenta alta taxa de falsos negativos, em parte devido \`as limita\c{c}~oes das ferramentas de gera\c{c}~ao de testes como Randoop e Evosuite Para investigar se modelos de linguagem de grande porte (LLMs) podem superar essas limita\c{c}~oes, propomos e integramos ao SMAT uma nova ferramenta de gera\c{c}~ao de testes baseada no Code Llama 70B。 Exploramos a capacidade do modelo de gerar testes utilizando diferentes estrat\'egias de intera\c{c}~ao, conte\'udos de prompts e configura\c{c}~oes de par^ametros。 Nossa avalia\c{c}~ao utiliza duas amostras: um benchmark com sistemas mais simples, usados em trabalhos relacionados, e uma amostra mais significativa baseada em sistemas complexos e reais。 Avaliamos a efic\'acia da nova extens~ao do SMAT na detec\c{c}~ao de conflitos Os resultados indicam que, embora a gera\c{c}~ao de testes por LLM em cen\'arios complexos ainda seja desafiadora e custosa computacionalmente, h\'a potencial promissor para aprimorar a detec\c{c}~ao de conflitos sem^anticos。

論文の概要: Leveraging LLMs for Semantic Conflict Detection via Unit Test Generation

関連論文リスト