論文の概要: Structural Code Search using Natural Language Queries
- arxiv url: http://arxiv.org/abs/2507.02107v1
- Date: Wed, 02 Jul 2025 19:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.098384
- Title: Structural Code Search using Natural Language Queries
- Title(参考訳): 自然言語クエリを用いた構造コード検索
- Authors: Ben Limpanukorn, Yanjun Wang, Zach Patterson, Pranav Garg, Murali Krishna Ramanathan, Xiaofei Ma, Anoop Deoras, Miryung Kim,
- Abstract要約: 我々は、開発者が自然言語を使ってコードを構造的に検索できるようにすることを提案する。
自然言語でクエリを表現することで、コード検索の直感的な方法と、入力障壁の低減が可能になる。
LLMを用いたDSLクエリへのNLクエリの変換に基づく構造的コード検索は効率的かつ堅牢であることを示す。
- 参考スコア(独自算出の注目度): 14.915304679162713
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Searching code is a common task that developers perform to understand APIs, learn common code patterns, and navigate code. Currently, developers most commonly search using keywords and regular expressions that are easy to use and widely available. Beyond keywords and regular expressions, structural code search tools allow developers to search for code based on its syntactic structure. This has numerous applications ranging from bug finding to systematically refactoring code. However, these structural code search tools operate on queries expressed in domain-specific languages (DSL) that can be difficult to learn and write. We propose to allow developers to use natural language to search for code structurally. Expressing queries in natural language provides an intuitive way to search for code and lowers the barrier to entry. In this work, we develop a novel general approach that combines the reasoning capabilities of an LLM to interpret natural language search queries with the power of structural search tools to efficiently and accurately retrieve relevant code. We then instantiate this approach for two structural code search DSLs: Semgrep and GQL. In our evaluation, we construct a new benchmark for structural code search consisting of 400 queries over 10 Java projects. We show that our approach for structural code search based on translating NL queries to DSL queries using an LLM is effective and robust, achieving a high precision and recall ranging from 55% - 70%. Further, our approach significantly outperforms baselines based on semantic code search and LLM retrievals by up to 57% and 14% on F1 scores.
- Abstract(参考訳): コード検索は、開発者がAPIを理解し、共通のコードパターンを学習し、コードをナビゲートする一般的なタスクである。
現在、開発者は最も一般的に、簡単に使えて広く利用できるキーワードや正規表現を使って検索する。
キーワードや正規表現以外にも、構造コード検索ツールを使えば、開発者は構文構造に基づいてコードを探すことができる。
バグ発見からコードの体系的なリファクタリングまで、数多くのアプリケーションがあります。
しかし、これらの構造的なコード検索ツールは、習得や記述が難しいドメイン固有言語(DSL)で表現されたクエリで動作します。
我々は、開発者が自然言語を使ってコードを構造的に検索できるようにすることを提案する。
自然言語でクエリを表現することで、コード検索の直感的な方法と、入力障壁の低減が可能になる。
本研究では,LLMによる自然言語検索クエリの推論能力と構造的検索ツールの能力を組み合わせて,関連コードを効率的にかつ正確に検索する手法を提案する。
次に、このアプローチを2つの構造化コード検索DSL(SemgrepとGQL)に対してインスタンス化する。
評価では、10のJavaプロジェクトに対して400のクエリからなる構造コード検索のための新しいベンチマークを構築した。
LLMを用いたDSLクエリへのNLクエリの変換に基づく構造的コード検索のアプローチは効率的で堅牢であり、55%から70%の精度で高精度かつリコールを実現していることを示す。
さらに,本手法は,意味コード検索とLLM検索に基づくベースラインを最大57%,F1スコアで14%向上させる。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Leveraging LLMs to Enable Natural Language Search on Go-to-market Platforms [0.23301643766310368]
販売者向けのZoominfo製品向けのソリューションの実装と評価を行い、自然言語による大規模言語モデルの実現を促す。
中間検索フィールドは、構文エラーの除去など、クエリ毎に多くの利点を提供する。
提案手法の有効性を実証するために, クローズド, オープンソース, 微調整 LLM モデルを用いた総合実験を行った。
論文 参考訳(メタデータ) (2024-11-07T03:58:38Z) - Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。
全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。
提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文 参考訳(メタデータ) (2023-10-23T05:52:09Z) - Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets [7.948526577271158]
コードスニペットをクエリとして使用して、バグフィックス命令やコードサンプルを探すことは、従来の技術ではカバーされていない自然なユースケースである、と私たちは主張する。
StackOverflowデータに基づく検索・バイ・コード・ユースケースを実装した新しいSearchBySnippetデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-19T12:09:30Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - BERT2Code: Can Pretrained Language Models be Leveraged for Code Search? [0.7953229555481884]
我々は,本モデルが埋め込み空間と改良のスコープに対するさらなるプローブの間に固有の関係を学習することを示す。
本稿では,コード埋め込みモデルの品質が,我々のモデルの性能のボトルネックであることを示す。
論文 参考訳(メタデータ) (2021-04-16T10:28:27Z) - Search4Code: Code Search Intent Classification Using Weak Supervision [5.441318460204245]
本稿では,C# および Java プログラミング言語の検索クエリにおけるコード検索意図を検出するための弱監督に基づくアプローチを提案する。
我々は,BingのWeb検索エンジンから100万以上のクエリをマイニングした実世界のデータセット上で,いくつかのベースラインに対するアプローチを評価する。
また、BingのWeb検索エンジンから抽出されたコード検索クエリの大規模なリアルタイムデータセットであるSearch4Codeもリリースしています。
論文 参考訳(メタデータ) (2020-11-24T08:06:53Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - Neural Code Search Revisited: Enhancing Code Snippet Retrieval through
Natural Language Intent [1.1168121941015012]
コードスニペットの意図をよりよく把握するために,記述を活用することで,コード検索システムを改善する方法について検討する。
翻訳学習と自然言語処理の最近の進歩に基づき,自然言語記述を付加したコードに対するドメイン固有検索モデルを構築した。
論文 参考訳(メタデータ) (2020-08-27T15:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。