Fugu-MT 論文翻訳(概要): Debug Like a Human: Scaling LLM-based Fault Localization to Processor Design via Block-Level Instruction-Oriented Slicing

論文の概要: Debug Like a Human: Scaling LLM-based Fault Localization to Processor Design via Block-Level Instruction-Oriented Slicing

arxiv url: http://arxiv.org/abs/2605.17290v1
Date: Sun, 17 May 2026 07:02:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 23:51:08.357262
Title: Debug Like a Human: Scaling LLM-based Fault Localization to Processor Design via Block-Level Instruction-Oriented Slicing
Title（参考訳）: Debug like a human: Scaling LLM-based Fault Localization to Processor Design via Block-Level Instruction-Oriented Slicing
Authors: Zizhen Liu, Xiaoguang Mao, Deheng Yang, Jiayu He, Yihao Qin, Guangda Zhang, Yan Lei, Jianjun Xu, Jiang Wu,
Abstract要約: 現代のプロセッサ設計コードにおけるフォールトローカライゼーションは、検証において重要なが時間を要するステップである。本稿では,プロセッサ設計のためのブロックレベルLPMに基づく新しい障害ローカライズフレームワークBluesFLを紹介する。システムVerilogの19K行からなる実世界のRISC-Vプロセッサコア上でBluesFLを評価する。
参考スコア（独自算出の注目度）: 14.041582530697335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fault localization in modern processor design code is a critical yet time-consuming step during processor verification. While recent advances in LLM-based techniques for module-level hardware design have shown promising results, automatically localizing bugs in large-scale, project-level processor designs remains challenging. In this paper, we present BluesFL, a novel block-level LLM-based fault localization framework for processor designs. Inspired by the way engineers debug processors, we first propose a dataflow-based code blockization approach to guide LLMs to focus on critical local code context. We further propose a Block-Level Instruction-Oriented Slicing (Blues) algorithm that enables LLMs to mimic human reasoning by analyzing instruction execution paths and processor states. We evaluate BluesFL on a real-world RISC-V processor core comprising 19K lines of SystemVerilog code. Experimental results demonstrate that BluesFL correctly localizes 24 bugs at Top-1, achieving 242.9% improvement over the existing state-of-the-art (7 bugs). Cost analysis shows that BluesFL requires an average of only $0.257 to localize a single bug.
Abstract（参考訳）: 現代のプロセッサ設計コードにおけるフォールトローカライゼーションは、プロセッサ検証において重要なが時間を要するステップである。モジュールレベルのハードウェア設計におけるLLMベースの技術の最近の進歩は、有望な結果を示しているが、大規模でプロジェクトレベルのプロセッサ設計においてバグを自動的にローカライズすることは、依然として困難である。本稿では,プロセッサ設計のためのブロックレベルLCMに基づく新しい障害ローカライズフレームワークBluesFLを提案する。エンジニアがプロセッサをデバッグする方法に触発されて、まずデータフローベースのコードブロック方式を提案し、LLMをガイドして重要なローカルコードコンテキストにフォーカスする。さらに,命令実行経路とプロセッサ状態を分析し,LLMが人間の推論を模倣できるブロックレベル命令指向スライシング(Blues)アルゴリズムを提案する。システムVerilogの19K行からなる実世界のRISC-Vプロセッサコア上でBluesFLを評価する。実験の結果、BluesFLはTop-1で24のバグを正しくローカライズし、既存の最先端(7のバグ)よりも242.9%改善した。コスト分析によると、BluesFLは1つのバグをローカライズするために平均0.257ドルしか必要としない。

関連論文リスト

From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。 LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文参考訳（メタデータ） (2026-04-01T11:40:12Z)
JudgeFlow: Agentic Workflow Optimization via Block Judge [25.427646436735312]
現在の手法は粗大でエンドツーエンドな評価信号に依存しており、どこで精製するかに関する微細な信号が欠如しており、しばしば非効率または低インパクトな修正をもたらす。本稿では,論理の基本形式を抽出し,問題のあるブロックにランクベースの責任スコアを割り当てる評価最適化更新パイプラインを提案する。提案手法は, サンプリング効率の向上, ブロックレベルの診断による解釈可能性の向上, ますます複雑化するエージェントの自動化のためのスケーラブルな基盤を提供する。
論文参考訳（メタデータ） (2026-01-12T12:30:14Z)
InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文参考訳（メタデータ） (2025-10-21T06:26:29Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。 LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。 14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文参考訳（メタデータ） (2024-09-20T16:47:34Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Leveraging Print Debugging to Improve Code Generation in Large Language Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文参考訳（メタデータ） (2024-01-10T18:37:59Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。 5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文参考訳（メタデータ） (2023-10-03T01:26:39Z)
A Quantitative and Qualitative Evaluation of LLM-Based Explainable Fault Localization [12.80414941523501]
AutoFLは、提案された障害位置とともに、バグの説明を生成する。 JavaとPythonの798の現実世界のバグの実験では、AutoFLはメソッドレベルのcc@1を、ベースライン上で最大233.3%改善した。
論文参考訳（メタデータ） (2023-08-10T10:26:55Z)
Benchmarking Large Language Models for Automated Verilog RTL Code Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文参考訳（メタデータ） (2022-12-13T16:34:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。