論文の概要: Generating Complex Code Analyzers from Natural Language Questions
- arxiv url: http://arxiv.org/abs/2605.09304v1
- Date: Sun, 10 May 2026 04:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 14:44:55.355361
- Title: Generating Complex Code Analyzers from Natural Language Questions
- Title(参考訳): 自然言語質問から複雑なコードアナライザを生成する
- Authors: Amirmohammad Nazari, Sadra Sabouri, Wang Bill Zhu, Robin Jia, Souti Chattopadhyay, Mukund Raghothaman,
- Abstract要約: 我々は、コードに関する分析的推論を必要とする自由形式の質問に答える新しいシステム、Merlinを提案する。
本稿では,RAGに基づく反復的なクエリ生成手法と,新しい自己テスト手法を提案する。
- 参考スコア(独自算出の注目度): 23.315299132854438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many software development tasks, such as implementing features and fixing bugs, begin with developers posing questions about a codebase. However, answering questions about codebases that span millions of lines of code across thousands of files is non-trivial. Standard tools like grep cannot answer questions requiring semantic or inter-procedural reasoning, and large language models (LLMs) struggle with large codebases due to resource and context constraints. In this paper, we present Merlin, a new system for answering free-form questions that require analytical reasoning about code. Merlin integrates an LLM with CodeQL, a program analysis framework that supports expressive queries over large codebases. We face two principal challenges in the design of such systems: First, program analysis queries are diverse and semantically complex; as a result, even syntactically well-formed queries frequently produce degenerate/empty results. Furthermore, relatively few CodeQL queries are available online, limiting the out-of-the-box effectiveness of LLMs as CodeQL query generators. We address these challenges by developing a RAG-based iterative query-generation approach and a novel self-test technique. Our query debugging technique builds on the idea of assistive queries, which generate concrete witnesses that expose and explain semantic flaws in candidate queries. We evaluate Merlin through both experimental and user studies. Over a set of natural language questions derived from common bug-finding tasks, Merlin discovered not only the majority of software issues reported by other approaches, but also issues that would have otherwise remained undetected. Through a within-subject user study, we found that access to Merlin increased task accuracy by an average of 3.8* and simultaneously reduced the time for programmers to complete all tasks by 31%.
- Abstract(参考訳): 機能の実装やバグ修正など、多くのソフトウェア開発タスクは、開発者がコードベースについて疑問を投げかけることから始まります。
しかし、数千のファイルにまたがる数百万行のコードにまたがるコードベースに関する質問に答えるのは簡単ではない。
grepのような標準的なツールは、意味論や言語間推論を必要とする質問に答えることはできない。
本稿では,コードに関する解析的推論を必要とする自由形式の質問に答える新しいシステムであるMerlinを提案する。
Merlinは、大規模なコードベース上で表現力のあるクエリをサポートするプログラム分析フレームワークであるCodeQLとLLMを統合している。
まず、プログラム分析クエリは多様性があり、意味論的に複雑である。その結果、構文的によく整ったクエリでさえ、しばしば退化/空化結果を生成する。
さらに、比較的少数のCodeQLクエリがオンラインで利用可能であり、CodeQLクエリジェネレータとしてのLLMのアウト・オブ・ボックスの有効性が制限されている。
本稿では,RAGに基づく反復的なクエリ生成手法と,新たな自己テスト手法を開発することで,これらの課題に対処する。
我々のクエリデバッグ技術は、候補クエリのセマンティックな欠陥を露呈し説明する具体的な目撃者を生成する、アシストクエリのアイデアに基づいている。
実験とユーザスタディの両方を通してMerlinを評価した。
一般的なバグフィニングタスクから派生した自然言語に関する一連の質問に対して、Merlin氏は、他のアプローチによって報告されたソフトウェア問題の大部分だけでなく、検出されていない問題も発見した。
その結果,Merlinへのアクセスによって平均3.8*のタスク精度が向上し,プログラマがすべてのタスクを完了するまでの時間を31%短縮した。
関連論文リスト
- Beyond Caption-Based Queries for Video Moment Retrieval [60.31221310786333]
キャプションベースのクエリでトレーニングしたVMR手法の劣化について検討するが,検索クエリで評価した。
3つのパブリックVMRデータセットでテキストクエリを変更することで、3つのベンチマークを導入する。
提案手法は,検索クエリの性能を最大14.82% mAP_m,マルチモーメント検索クエリ最大21.83% mAP_mで改善する。
論文 参考訳(メタデータ) (2026-03-02T20:06:41Z) - Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。
2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文 参考訳(メタデータ) (2025-07-22T19:23:03Z) - The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance [18.886738819470086]
我々は,マルチターンプログラミング支援を評価するための最初のベンチマークフレームワークであるCodeAssistBench (CAB)を紹介した。
既存のプログラミングQ&Aベンチマークとは異なり、CABは質問に関連するGitHubの問題からスケーラブルなデータセットを自動的に生成する。
このフレームワークを用いて,231リポジトリにわたる3,286の現実世界のプログラミング質問をテストセットとして構築した。
論文 参考訳(メタデータ) (2025-07-14T17:19:00Z) - Q${}^2$Forge: Minting Competency Questions and SPARQL Queries for Question-Answering Over Knowledge Graphs [6.6757601046766135]
SPARQLクエリ言語は知識グラフ(KG)にアクセスする標準的な方法である。
ベストプラクティスは、KGを有能な質問やサンプルクエリで文書化することを推奨する。
Q$2$Forgeは、KGと対応するSPARQLクエリのための新しい能力質問を生成するという課題に対処する。
論文 参考訳(メタデータ) (2025-05-19T13:26:51Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。