論文の概要: Zero-Shot Cross-Domain Code Search without Fine-Tuning
- arxiv url: http://arxiv.org/abs/2504.07740v1
- Date: Thu, 10 Apr 2025 13:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:39.410351
- Title: Zero-Shot Cross-Domain Code Search without Fine-Tuning
- Title(参考訳): 微調整なしゼロショットクロスドメインコード検索
- Authors: Keyu Liang, Zhongxin Liu, Chao Liu, Zhiyuan Wan, David Lo, Xiaohu Yang,
- Abstract要約: クロスドメインコード検索のためのゼロショット、微調整不要なアプローチを提案する。
CodeBridgeは、PLMベースの類似性スコアリングとサンプリングベースの融合を通じて、クエリコード、クエリコンメンテーション、コードマッチングを組み合わせる。
我々の手法は、最先端のPLMベースのコード検索手法であるCoCoSoDaとUniXcoderをそれぞれ平均21.4%、MRRは24.9%上回る。
- 参考スコア(独自算出の注目度): 12.905068305900356
- License:
- Abstract: Code search aims to retrieve semantically relevant code snippets for natural language queries. While pre-trained language models (PLMs) have shown remarkable performance in this task, they struggle in cross-domain scenarios, often requiring costly fine-tuning or facing performance drops in zero-shot settings. RAPID, which generates synthetic data for model fine-tuning, is currently the only effective method for zero-shot cross-domain code search. Despite its effectiveness, RAPID demands substantial computational resources for fine-tuning and needs to maintain specialized models for each domain, underscoring the need for a zero-shot, fine-tuning-free approach for cross-domain code search. The key to tackling zero-shot cross-domain code search lies in bridging the gaps among domains. In this work, we propose to break the query-code matching process of code search into two simpler tasks: query-comment matching and code-code matching. Our empirical study reveals the strong complementarity among the three matching schemas in zero-shot cross-domain settings, i.e., query-code, query-comment, and code-code matching. Based on the findings, we propose CodeBridge, a zero-shot, fine-tuning-free approach for cross-domain code search. Specifically, CodeBridge uses Large Language Models (LLMs) to generate comments and pseudo-code, then combines query-code, query-comment, and code-code matching via PLM-based similarity scoring and sampling-based fusion. Experimental results show that our approach outperforms the state-of-the-art PLM-based code search approaches, i.e., CoCoSoDa and UniXcoder, by an average of 21.4% and 24.9% in MRR, respectively, across three datasets. Our approach also yields results that are better than or comparable to those of the zero-shot cross-domain code search approach RAPID, which requires costly fine-tuning.
- Abstract(参考訳): コード検索は、自然言語クエリのセマンティックな関連コードスニペットを検索することを目的としている。
事前訓練された言語モデル(PLM)は、このタスクで顕著なパフォーマンスを示しているが、クロスドメインシナリオに苦しむ。
モデル微調整のための合成データを生成するRAPIDは、現在、ゼロショットクロスドメインコード検索に有効な唯一の方法である。
その効果にもかかわらず、RAPIDは微調整のためにかなりの計算資源を必要とし、ドメインごとに特別なモデルをメンテナンスする必要がある。
ゼロショットのクロスドメインコード検索に対処する鍵は、ドメイン間のギャップを埋めることにある。
本研究では,コード検索のクエリ・コードマッチングプロセスを,クエリ・コマンドマッチングとコード・コードマッチングという2つの単純なタスクに分割することを提案する。
我々の実証的研究は、ゼロショットのクロスドメイン設定における3つのマッチングスキーマの強い相補性、すなわち、クエリコード、クエリ-コメンデーション、コード-コードマッチングを明らかにする。
この結果に基づいて,クロスドメインコード検索のためのゼロショット,微調整不要なアプローチであるCodeBridgeを提案する。
具体的には、CodeBridgeはコメントと擬似コードを生成するためにLarge Language Models (LLMs)を使用し、PLMベースの類似度スコアリングとサンプリングベースの融合を通じてクエリコード、クエリ・コメンデーション、コード・コードマッチングを組み合わせる。
実験の結果,提案手法は3つのデータセットでそれぞれ21.4%,24.9%,CoCoSoDa,UniXcoderといった最先端のPLMベースのコード検索手法よりも優れていた。
提案手法は,高コストな微調整を必要とするゼロショットクロスドメインコード検索手法であるRAPIDに匹敵する結果が得られる。
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search [7.822427053078387]
Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。
本稿では、forスタイルの正規化内でコード(ReCo)を書き換える、シンプルで効果的な方法を提案する。
コードスタイル類似度(Code Style similarity)は、コード内のスタイリスティック類似度を定量化するための最初のメートル法である。
論文 参考訳(メタデータ) (2024-01-09T12:12:50Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - On the Importance of Building High-quality Training Datasets for Neural
Code Search [15.557818317497397]
本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,次の2つのフィルタからなるデータクリーニングフレームワークを提案する。
2つの広く使われているコード検索モデルと3つの手動アノテーション付きコード検索ベンチマークにおけるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-14T12:02:41Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。