論文の概要: Leveraging LLMs for Semantic Conflict Detection via Unit Test Generation
- arxiv url: http://arxiv.org/abs/2507.06762v1
- Date: Wed, 09 Jul 2025 11:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.566653
- Title: Leveraging LLMs for Semantic Conflict Detection via Unit Test Generation
- Title(参考訳): 単体テスト生成による意味的衝突検出のためのLLMの活用
- Authors: Nathalia Barbosa, Paulo Borba, Léuson Da Silva,
- Abstract要約: 我々は、Code Llama 70Bをベースとした新しいテスト生成ツールSMATを提案し、統合する。
SMATはユニットテストの生成と実行に依存している: テストがベースバージョンで失敗し、開発者の修正バージョンをパスするが、他の開発者の変更とマージした後に再び失敗すると、セマンティックコンフリクトが示される。
その結果,LLMベースのテスト生成は複雑なシナリオでは困難であり,計算コストも高いが,セマンティックコンフリクト検出の改善には有望な可能性があることが示唆された。
- 参考スコア(独自算出の注目度): 1.201626478128059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic conflicts arise when a developer introduces changes to a codebase that unintentionally affect the behavior of changes integrated in parallel by other developers. Traditional merge tools are unable to detect such conflicts, so complementary tools like SMAT have been proposed. SMAT relies on generating and executing unit tests: if a test fails on the base version, passes on a developer's modified version, but fails again after merging with another developer's changes, a semantic conflict is indicated. While SMAT is effective at detecting conflicts, it suffers from a high rate of false negatives, partly due to the limitations of unit test generation tools such as Randoop and Evosuite. To investigate whether large language models (LLMs) can overcome these limitations, we propose and integrate a new test generation tool based on Code Llama 70B into SMAT. We explore the model's ability to generate tests using different interaction strategies, prompt contents, and parameter configurations. Our evaluation uses two samples: a benchmark with simpler systems from related work, and a more significant sample based on complex, real-world systems. We assess the effectiveness of the new SMAT extension in detecting conflicts. Results indicate that, although LLM-based test generation remains challenging and computationally expensive in complex scenarios, there is promising potential for improving semantic conflict detection. -- Conflitos sem^anticos surgem quando um desenvolvedor introduz mudan\c{c}as em uma base de c\'odigo que afetam, de forma n~ao intencional, o comportamento de altera\c{c}~oes integradas em paralelo por outros desenvolvedores. Ferramentas tradicionais de merge n~ao conseguem detectar esse tipo de conflito, por isso ferramentas complementares como o SMAT foram propostas. O SMAT depende da gera\c{c}~ao e execu\c{c}~ao de testes de unidade: se um teste falha na vers~ao base, passa na vers~ao modificada por um desenvolvedor, mas volta a falhar ap\'os o merge com as mudan\c{c}as de outro desenvolvedor, um conflito sem^antico \'e identificado. Embora o SMAT seja eficaz na detec\c{c}~ao de conflitos, apresenta alta taxa de falsos negativos, em parte devido \`as limita\c{c}~oes das ferramentas de gera\c{c}~ao de testes como Randoop e Evosuite. Para investigar se modelos de linguagem de grande porte (LLMs) podem superar essas limita\c{c}~oes, propomos e integramos ao SMAT uma nova ferramenta de gera\c{c}~ao de testes baseada no Code Llama 70B. Exploramos a capacidade do modelo de gerar testes utilizando diferentes estrat\'egias de intera\c{c}~ao, conte\'udos de prompts e configura\c{c}~oes de par^ametros. Nossa avalia\c{c}~ao utiliza duas amostras: um benchmark com sistemas mais simples, usados em trabalhos relacionados, e uma amostra mais significativa baseada em sistemas complexos e reais. Avaliamos a efic\'acia da nova extens~ao do SMAT na detec\c{c}~ao de conflitos. Os resultados indicam que, embora a gera\c{c}~ao de testes por LLM em cen\'arios complexos ainda seja desafiadora e custosa computacionalmente, h\'a potencial promissor para aprimorar a detec\c{c}~ao de conflitos sem^anticos.
- Abstract(参考訳): 意味的な衝突は、開発者が他の開発者が統合した変更の振る舞いに意図せずに影響を及ぼすコードベースに変更を導入したときに起こる。
従来のマージツールはこのような衝突を検出できないため、SMATのような補完ツールが提案されている。
SMATはユニットテストの生成と実行に依存している: テストがベースバージョンで失敗し、開発者の修正バージョンをパスするが、他の開発者の変更とマージした後に再び失敗すると、セマンティックコンフリクトが示される。
SMATは競合を検出するのに有効であるが、部分的にはRandoopやEvosuiteのような単体テスト生成ツールの制限のために、偽陰性の頻度が高い。
言語モデル(LLM)がこれらの制限を克服できるかどうかを検討するため,Code Llama 70Bに基づく新しいテスト生成ツールをSMATに導入し,統合する。
異なるインタラクション戦略、インテントのプロンプト、パラメータ設定を使って、モデルがテストを生成する能力について検討する。
評価では、関連する作業からより単純なシステムを用いたベンチマークと、複雑な実世界のシステムに基づくより重要なサンプルの2つを用いている。
コンフリクト検出における新たなSMAT拡張の有効性について検討した。
その結果,LLMベースのテスト生成は複雑なシナリオでは困難であり,計算コストも高いが,セマンティックコンフリクト検出の改善には有望な可能性があることが示唆された。
Conflitos sem^anticos surgem quando um desenvolvedor introduz mudan\c{c}as em uma base de c\'odigo que afetam, de forma n~ao intencional, o comportamento de altera\c{c}~oes integradas em paralelo por outros desenvolvedores。
Ferramentas tradicionais de merge n~ao conseguem detectar esse tipo de conflito, por isso ferramentas complementares como o SMAT foram propostas。
O SMAT depende da gera\c{c}~ao e execu\c{c}~ao de testes de unidade: se um teste falha na vers~ao base, passa na vers~ao modificada por um desenvolvedor, mas volta a falhar ap\'os o merge com as mudan\c{c}as de outro desenvolvedor, um conflito sem^antico \'e identificado。
Embora o SMAT seja eficaz na detec\c{c}~ao de conflitos, apresenta alta taxa de falsos negativos, em parte devido \`as limita\c{c}~oes das ferramentas de gera\c{c}~ao de testes como Randoop e Evosuite
Para investigar se modelos de linguagem de grande porte (LLMs) podem superar essas limita\c{c}~oes, propomos e integramos ao SMAT uma nova ferramenta de gera\c{c}~ao de testes baseada no Code Llama 70B。
Exploramos a capacidade do modelo de gerar testes utilizando diferentes estrat\'egias de intera\c{c}~ao, conte\'udos de prompts e configura\c{c}~oes de par^ametros。
Nossa avalia\c{c}~ao utiliza duas amostras: um benchmark com sistemas mais simples, usados em trabalhos relacionados, e uma amostra mais significativa baseada em sistemas complexos e reais。
Avaliamos a efic\'acia da nova extens~ao do SMAT na detec\c{c}~ao de conflitos
Os resultados indicam que, embora a gera\c{c}~ao de testes por LLM em cen\'arios complexos ainda seja desafiadora e custosa computacionalmente, h\'a potencial promissor para aprimorar a detec\c{c}~ao de conflitos sem^anticos。
関連論文リスト
- SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - CONGRA: Benchmarking Automatic Conflict Resolution [3.9910625211670485]
ConGraは、ソフトウェアマージツールのパフォーマンスを評価するために設計されたベンチマークスキームである。
我々は34の現実世界プロジェクトから44,948のコンフリクトに基づいて大規模な評価データセットを構築した。
論文 参考訳(メタデータ) (2024-09-21T12:21:41Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデルの文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
ADACADは静的コントラストベースラインよりも平均QA精度14.21%(絶対)のデコードベースラインを一貫して上回り、要約の事実性を6.19倍(AlignScore)向上させることを示す。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z) - Fix the Tests: Augmenting LLMs to Repair Test Cases with Static Collector and Neural Reranker [9.428021853841296]
本稿では, TROCtxsの精密かつ高精度な構築により, 旧来の検査ケースを自動的に修復する新しい手法であるSynTERを提案する。
構築されたTROCtxの増強により、幻覚は57.1%減少する。
論文 参考訳(メタデータ) (2024-07-04T04:24:43Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Detecting Semantic Conflicts with Unit Tests [5.273883263686449]
ブランチとマージはソフトウェア開発における一般的なプラクティスであり、開発者の生産性を高める。
現代のマージ技術は、テキストの衝突を自動的に解決するが、意味レベルでの衝突が発生すると失敗する。
単体テストの自動生成に基づくセマンティックマージツールであるSemAntic Mergeを提案する。
論文 参考訳(メタデータ) (2023-10-03T19:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。