Fugu-MT 論文翻訳(概要): Detecting Semantic Conflicts with Unit Tests

論文の概要: Detecting Semantic Conflicts with Unit Tests

arxiv url: http://arxiv.org/abs/2310.02395v1
Date: Tue, 3 Oct 2023 19:36:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 04:58:18.852070
Title: Detecting Semantic Conflicts with Unit Tests
Title（参考訳）: ユニットテストとのセマンティックコンフリクトの検出
Authors: L\'euson Da Silva, Paulo Borba, Toni Maciel, Wardah Mahmood, Thorsten Berger, Jo\~ao Moisakis, Aldiberg Gomes, Vin\'icius Leite
Abstract要約: ブランチとマージはソフトウェア開発における一般的なプラクティスであり、開発者の生産性を高める。現代のマージ技術は、テキストの衝突を自動的に解決するが、意味レベルでの衝突が発生すると失敗する。単体テストの自動生成に基づくセマンティックマージツールであるSemAntic Mergeを提案する。
参考スコア（独自算出の注目度）: 5.273883263686449
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Branching and merging are common practices in collaborative software development, increasing developer's productivity. Despite such benefits, developers need to merge software and resolve merge conflicts. While modern merge techniques can resolve textual conflicts automatically, they fail when the conflict arises at the semantic level. Although semantic merge tools have been proposed, they are usually based on heavyweight static analyses or need explicit specifications of program behavior. In this work, we take a different route and propose SAM (SemAntic Merge), a semantic merge tool based on the automated generation of unit tests that are used as partial specifications. To evaluate SAM's feasibility for detecting conflicts, we perform an empirical study analyzing more than 80 pairs of changes integrated into common class elements from 51 merge scenarios. Furthermore, we also assess how the four unit-test generation tools used by SAM contribute to conflict identification. We propose and assess the adoption of Testability Transformations and Serialization. Our results show that SAM best performs when combining only the tests generated by Differential EvoSuite and EvoSuite and using the proposed Testability Transformations (nine detected conflicts out of 28). These results reinforce previous findings about the potential of using test-case generation to detect test conflicts.
Abstract（参考訳）: ブランチとマージは協調ソフトウェア開発における一般的なプラクティスであり、開発者の生産性を高めます。このようなメリットがあるにも関わらず、開発者はソフトウェアをマージし、マージ競合を解決する必要がある。現代のマージ技術はテキストの衝突を自動的に解決するが、意味レベルでの衝突が発生すると失敗する。セマンティックマージツールは提案されているが、通常は重み付け静的解析に基づいており、プログラム動作の明確な仕様を必要とする。そこで本研究では,部分的な仕様として使用されるユニットテストの自動生成に基づく意味的マージツールであるsam(semantic merge)を提案する。コンフリクトを検出するSAMの有効性を評価するために,51のメルジシナリオから80組以上の変更を共通クラス要素に統合する実験を行った。さらに、SAMが使用する4つのユニットテスト生成ツールがコンフリクト識別にどのように貢献するかを評価する。テスト可能性変換とシリアライゼーションの導入を提案し,評価する。その結果、SAMは、差分EvoSuiteとEvoSuiteで生成されたテストのみを組み合わせて、提案したTestability Transformations(28件中9件のコンフリクトを検出した)を使用することで、最高の性能を示した。これらの結果は,テストケース生成によるテストコンフリクトの検出の可能性に関する過去の知見を裏付けるものである。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。単体テストはテストケースの大部分を占め、しばしばスキーマ的である。本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文参考訳（メタデータ） (2025-07-18T11:23:17Z)
Leveraging LLMs for Semantic Conflict Detection via Unit Test Generation [1.201626478128059]
我々は、Code Llama 70Bをベースとした新しいテスト生成ツールSMATを提案し、統合する。 SMATはユニットテストの生成と実行に依存している: テストがベースバージョンで失敗し、開発者の修正バージョンをパスするが、他の開発者の変更とマージした後に再び失敗すると、セマンティックコンフリクトが示される。その結果,LLMベースのテスト生成は複雑なシナリオでは困難であり,計算コストも高いが,セマンティックコンフリクト検出の改善には有望な可能性があることが示唆された。
論文参考訳（メタデータ） (2025-07-09T11:38:53Z)
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。 2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。 19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
Evaluation of Version Control Merge Tools [3.1969855247377836]
Gitのようなバージョン管理システムでは、異なる開発者やブランチからの変更を統合する方法が必要になる。マージツールは変更のクリーンな統合を出力するか、手作業による解決のためにコンフリクトを出力する。新しいマージツールが提案されているが、まだ互いに評価されていない。
論文参考訳（メタデータ） (2024-10-13T17:35:14Z)
CONGRA: Benchmarking Automatic Conflict Resolution [3.9910625211670485]
ConGraは、ソフトウェアマージツールのパフォーマンスを評価するために設計されたベンチマークスキームである。我々は34の現実世界プロジェクトから44,948のコンフリクトに基づいて大規模な評価データセットを構築した。
論文参考訳（メタデータ） (2024-09-21T12:21:41Z)
AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデル(LLM)の文脈における情報と、そのパラメータに格納された知識との相違から生じる。コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
論文参考訳（メタデータ） (2024-09-11T16:35:18Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文参考訳（メタデータ） (2024-07-23T17:47:25Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文参考訳（メタデータ） (2024-01-31T18:21:49Z)
Detecting Semantic Conflicts using Static Analysis [1.201626478128059]
本稿では,2人の開発者によるコントリビューションをマージする際に,静的解析を用いて干渉を検出する手法を提案する。統合シナリオから抽出した99個の実験単位のデータセットを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2023-10-06T14:13:16Z)
Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文参考訳（メタデータ） (2023-07-28T12:38:44Z)
Generalizable Metric Network for Cross-domain Person Re-identification [55.71632958027289]
クロスドメイン(ドメインの一般化)シーンは、Re-IDタスクにおいて課題となる。既存のほとんどのメソッドは、すべてのドメインのドメイン不変またはロバストな機能を学ぶことを目的としています。本稿では,サンプルペア空間における標本類似性を調べるために,GMN(Generalizable Metric Network)を提案する。
論文参考訳（メタデータ） (2023-06-21T03:05:25Z)
Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale Feature Fusion [95.7732308775325]
提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。 DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
論文参考訳（メタデータ） (2022-07-28T15:34:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。