Fugu-MT 論文翻訳(概要): Time Travel: LLM-Assisted Semantic Behavior Localization with Git Bisect

論文の概要: Time Travel: LLM-Assisted Semantic Behavior Localization with Git Bisect

arxiv url: http://arxiv.org/abs/2511.18854v1
Date: Mon, 24 Nov 2025 07:49:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-25 18:34:25.092376
Title: Time Travel: LLM-Assisted Semantic Behavior Localization with Git Bisect
Title（参考訳）: タイムトラベル: Git BisectによるLLM支援セマンティックな振る舞いのローカライゼーション
Authors: Yujing Wang, Weize Hong,
Abstract要約: 本稿では,大規模言語モデル(LLM)をGitビスクトプロセスに統合し,セマンティックなフォールトローカライゼーションを実現する新しいフレームワークを提案する。本システムでは, 雑音条件下でのコミット分析によるコミットを可能にするため, 構造的思考推論の連鎖によるビステクトトラバーサルを増強する。
参考スコア（独自算出の注目度）: 8.55768450285885
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a novel framework that integrates Large Language Models (LLMs) into the Git bisect process for semantic fault localization. Traditional bisect assumes deterministic predicates and binary failure states assumptions often violated in modern software development due to flaky tests, nonmonotonic regressions, and semantic divergence from upstream repositories. Our system augments bisect traversal with structured chain of thought reasoning, enabling commit by commit analysis under noisy conditions. We evaluate multiple open source and proprietary LLMs for their suitability and fine tune DeepSeekCoderV2 using QLoRA on a curated dataset of semantically labeled diffs. We adopt a weak supervision workflow to reduce annotation overhead, incorporating human in the loop corrections and self consistency filtering. Experiments across multiple open source projects show a 6.4 point absolute gain in success rate from 74.2 to 80.6 percent, leading to significantly fewer failed traversals and by experiment up to 2x reduction in average bisect time. We conclude with discussions on temporal reasoning, prompt design, and finetuning strategies tailored for commit level behavior analysis.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)をGitビスクトプロセスに統合し,セマンティックなフォールトローカライゼーションを実現する新しいフレームワークを提案する。従来の二項述語では、決定論的述語と二項失敗状態の仮定は、フレキなテスト、非単調な回帰、上流リポジトリからのセマンティックな分岐によって、現代のソフトウェア開発でしばしば違反される。本システムでは, 雑音条件下でのコミット分析によるコミットを可能にするため, 構造的思考推論の連鎖によるビステクトトラバーサルを増強する。我々は,複数のオープンソースおよびプロプライエタリなLLMを,QLoRAを用いて,意味ラベル付きディフのキュレートデータセット上で評価し,その適合性と微調整を行う。我々は、ループ修正と自己整合フィルタリングに人間を取り入れ、アノテーションのオーバーヘッドを低減するために、弱い監視ワークフローを採用する。複数のオープンソースプロジェクトに対する実験では、74.2から80.6%の絶対的な成功率の6.4ポイントが達成され、失敗するトラバーサルが大幅に減少し、平均二点時間で最大2倍まで減少する結果となった。我々は,コミットレベルの行動分析に適した時間的推論,迅速な設計,微調整戦略に関する議論を締めくくった。

関連論文リスト

DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows [20.319113495948294]
我々は多段階推論過程をノイズMDPとして定式化する。 DenoiseFlowは3つの調整段階を通じてプログレッシブなdenoisingを行うクローズドループフレームワークである。
論文参考訳（メタデータ） (2026-02-28T08:11:38Z)
CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。 LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文参考訳（メタデータ） (2026-02-04T00:12:30Z)
Detecting Multiple Semantic Concerns in Tangled Code Commits [1.2578844450585998]
開発者はしばしば、絡まったコミットに複数の関心事をバンドルし、意図を隠蔽し、メンテナンスを複雑にする。近年の研究では、コミット意図を捉えるために、CCS(Conventional Commits Specification)とLM(Language Models)が使われている。本研究では,SLMを用いて,絡み合ったコミットにおける複数の意味的関心事を検出する実験的検討を行った。
論文参考訳（メタデータ） (2026-01-29T05:50:16Z)
CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。 CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文参考訳（メタデータ） (2025-12-22T16:34:21Z)
CodeFuse-CommitEval: Towards Benchmarking LLM's Power on Commit Message and Code Change Inconsistency Detection [8.631593963090985]
バージョン管理は、コード変更の合理性を伝えるためにコミットメッセージに依存するが、これらのメッセージは、しばしば低品質で、メッセージコード不整合(MCI)として知られる差分と矛盾する。大規模言語モデル(LLM)を用いたMCI検出のための最初のベンチマークであるCODEFUSE-COMMITEVALを紹介する。我々は、元々一貫したコミットのルール誘導突然変異を通じて、7種類の一貫性のないメッセージを生成し、正と負の両方のサンプルを検証するために2倍の検証を適用した。
論文参考訳（メタデータ） (2025-11-25T03:33:57Z)
Diffploit: Facilitating Cross-Version Exploit Migration for Open Source Library Vulnerabilities [13.559398564795048]
Diffploitは2つのキーモジュールを中心に構成された反復的で差分駆動のエクスプロイトマイグレーション手法である。 79のライブラリにわたる102のJava CVEと689のバージョンマイグレーションタスクを含む大規模データセット上でDiffploitを評価する。 84.2%のエクスプロイトの移行に成功し、変更対応のテスト修正ツールであるTARGETを52.0%、IDEAのルールベースのツールを61.6%上回った。
論文参考訳（メタデータ） (2025-11-17T04:06:01Z)
SemGuard: Real-Time Semantic Evaluator for Correcting LLM-Generated Code [46.20378145112059]
ポストホック修復パイプラインは、実行後にのみそのような障害を検出する。本稿では,実時間で行レベルのセマンティック監視を行うセマンティック評価フレームワークSemGuardを紹介する。
論文参考訳（メタデータ） (2025-09-29T09:21:32Z)
Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文参考訳（メタデータ） (2025-09-11T07:07:11Z)
LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [8.166584296080805]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。 49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文参考訳（メタデータ） (2025-05-13T06:26:13Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文参考訳（メタデータ） (2021-02-16T07:46:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。