論文の概要: Time Travel: LLM-Assisted Semantic Behavior Localization with Git Bisect
- arxiv url: http://arxiv.org/abs/2511.18854v1
- Date: Mon, 24 Nov 2025 07:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.092376
- Title: Time Travel: LLM-Assisted Semantic Behavior Localization with Git Bisect
- Title(参考訳): タイムトラベル: Git BisectによるLLM支援セマンティックな振る舞いのローカライゼーション
- Authors: Yujing Wang, Weize Hong,
- Abstract要約: 本稿では,大規模言語モデル(LLM)をGitビスクトプロセスに統合し,セマンティックなフォールトローカライゼーションを実現する新しいフレームワークを提案する。
本システムでは, 雑音条件下でのコミット分析によるコミットを可能にするため, 構造的思考推論の連鎖によるビステクトトラバーサルを増強する。
- 参考スコア(独自算出の注目度): 8.55768450285885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel framework that integrates Large Language Models (LLMs) into the Git bisect process for semantic fault localization. Traditional bisect assumes deterministic predicates and binary failure states assumptions often violated in modern software development due to flaky tests, nonmonotonic regressions, and semantic divergence from upstream repositories. Our system augments bisect traversal with structured chain of thought reasoning, enabling commit by commit analysis under noisy conditions. We evaluate multiple open source and proprietary LLMs for their suitability and fine tune DeepSeekCoderV2 using QLoRA on a curated dataset of semantically labeled diffs. We adopt a weak supervision workflow to reduce annotation overhead, incorporating human in the loop corrections and self consistency filtering. Experiments across multiple open source projects show a 6.4 point absolute gain in success rate from 74.2 to 80.6 percent, leading to significantly fewer failed traversals and by experiment up to 2x reduction in average bisect time. We conclude with discussions on temporal reasoning, prompt design, and finetuning strategies tailored for commit level behavior analysis.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)をGitビスクトプロセスに統合し,セマンティックなフォールトローカライゼーションを実現する新しいフレームワークを提案する。
従来の二項述語では、決定論的述語と二項失敗状態の仮定は、フレキなテスト、非単調な回帰、上流リポジトリからのセマンティックな分岐によって、現代のソフトウェア開発でしばしば違反される。
本システムでは, 雑音条件下でのコミット分析によるコミットを可能にするため, 構造的思考推論の連鎖によるビステクトトラバーサルを増強する。
我々は,複数のオープンソースおよびプロプライエタリなLLMを,QLoRAを用いて,意味ラベル付きディフのキュレートデータセット上で評価し,その適合性と微調整を行う。
我々は、ループ修正と自己整合フィルタリングに人間を取り入れ、アノテーションのオーバーヘッドを低減するために、弱い監視ワークフローを採用する。
複数のオープンソースプロジェクトに対する実験では、74.2から80.6%の絶対的な成功率の6.4ポイントが達成され、失敗するトラバーサルが大幅に減少し、平均二点時間で最大2倍まで減少する結果となった。
我々は,コミットレベルの行動分析に適した時間的推論,迅速な設計,微調整戦略に関する議論を締めくくった。
関連論文リスト
- Diffploit: Facilitating Cross-Version Exploit Migration for Open Source Library Vulnerabilities [13.559398564795048]
Diffploitは2つのキーモジュールを中心に構成された反復的で差分駆動のエクスプロイトマイグレーション手法である。
79のライブラリにわたる102のJava CVEと689のバージョンマイグレーションタスクを含む大規模データセット上でDiffploitを評価する。
84.2%のエクスプロイトの移行に成功し、変更対応のテスト修正ツールであるTARGETを52.0%、IDEAのルールベースのツールを61.6%上回った。
論文 参考訳(メタデータ) (2025-11-17T04:06:01Z) - SemGuard: Real-Time Semantic Evaluator for Correcting LLM-Generated Code [46.20378145112059]
ポストホック修復パイプラインは、実行後にのみそのような障害を検出する。
本稿では,実時間で行レベルのセマンティック監視を行うセマンティック評価フレームワークSemGuardを紹介する。
論文 参考訳(メタデータ) (2025-09-29T09:21:32Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [8.166584296080805]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。
その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。
49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文 参考訳(メタデータ) (2025-05-13T06:26:13Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。