論文の概要: Revisiting Code Search in a Two-Stage Paradigm
- arxiv url: http://arxiv.org/abs/2208.11274v3
- Date: Thu, 28 Mar 2024 03:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 22:22:33.294740
- Title: Revisiting Code Search in a Two-Stage Paradigm
- Title(参考訳): 2段階パラダイムにおけるコード検索の再検討
- Authors: Fan Hu, Yanlin Wang, Lun Du, Xirong Li, Hongyu Zhang, Shi Han, Dongmei Zhang,
- Abstract要約: TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
- 参考スコア(独自算出の注目度): 67.02322603435628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With a good code search engine, developers can reuse existing code snippets and accelerate software development process. Current code search methods can be divided into two categories: traditional information retrieval (IR) based and deep learning (DL) based approaches. DL-based approaches include the cross-encoder paradigm and the bi-encoder paradigm. However, both approaches have certain limitations. The inference of IR-based and bi-encoder models are fast, however, they are not accurate enough; while cross-encoder models can achieve higher search accuracy but consume more time. In this work, we propose TOSS, a two-stage fusion code search framework that can combine the advantages of different code search methods. TOSS first uses IR-based and bi-encoder models to efficiently recall a small number of top-k code candidates, and then uses fine-grained cross-encoders for finer ranking. Furthermore, we conduct extensive experiments on different code candidate volumes and multiple programming languages to verify the effectiveness of TOSS. We also compare TOSS with six data fusion methods. Experimental results show that TOSS is not only efficient, but also achieves state-of-the-art accuracy with an overall mean reciprocal ranking (MRR) score of 0.763, compared to the best baseline result on the CodeSearchNet benchmark of 0.713. Our source code and experimental data are available at: https://github.com/fly-dragon211/TOSS.
- Abstract(参考訳): 優れたコード検索エンジンによって、開発者は既存のコードスニペットを再利用し、ソフトウェア開発プロセスを加速することができる。
現在のコード検索方法は、従来の情報検索(IR)とディープラーニング(DL)の2つのカテゴリに分けられる。
DLベースのアプローチには、クロスエンコーダパラダイムとバイエンコーダパラダイムがある。
しかし、どちらのアプローチにも一定の制限がある。
IRベースのモデルとバイエンコーダモデルの推論は高速であるが、精度は十分ではない。
本研究では,異なるコード検索手法の利点を組み合わせた2段階の融合コード検索フレームワークであるTOSSを提案する。
TOSSはまずIRベースとバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールし、さらに粒度の細かいクロスエンコーダを使用してランク付けを行う。
さらに、TOSSの有効性を検証するために、異なるコード候補ボリュームと複数のプログラミング言語について広範な実験を行う。
また、TOSSを6つのデータ融合法と比較する。
実験結果から, TOSSは効率性だけでなく, CodeSearchNetベンチマークの0.713と比較すると, MRRスコア0.763で最先端の精度を実現していることがわかった。
ソースコードと実験データは、https://github.com/fly-dragon211/TOSS.comで公開されています。
関連論文リスト
- Are Decoder-Only Large Language Models the Silver Bullet for Code Search? [32.338318300589776]
本研究では,コード検索のためのデコーダのみの大規模言語モデルについて,初めて体系的な検討を行った。
2つの微調整法、2つのデータセット、3つのモデルサイズを用いて、最先端デコーダのみの9つのモデルを評価する。
この結果,微調整のCodeGemmaはUniXcoderのようなエンコーダのみのモデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T17:05:25Z) - How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval? [99.87554379608224]
クロスエンコーダのクロスモーダル類似度スコア分布は、二重エンコーダの結果がほぼ正常である間により集中する。
強陰性間の相対的な順序だけが有効な知識を伝達する一方、容易な負性間の順序情報はほとんど意味を持たない。
本研究では, コントラスト学習を用いて, 硬質負試料間の相対的な順序を模倣することを目的とした, コントラスト部分式蒸留法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:10:01Z) - Can the Query-based Object Detector Be Designed with Fewer Stages? [15.726619371300558]
GOLOと呼ばれる2段階のデコードパラダイムに従う新しいモデルを提案する。
マルチステージデコーダを用いた他の主流クエリベースモデルと比較すると,デコーダのステージは少なく,性能は高い。
論文 参考訳(メタデータ) (2023-09-28T09:58:52Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Faster Person Re-Identification [68.22203008760269]
本稿では,新しいハッシュコード検索戦略を定式化することによって,高速ReIDのための新しいソリューションを提案する。
より短いコードを使用して、より正確なReIDのいくつかのトップ候補を洗練するために、より広い一致の類似性を粗くランク付けし、より長いコードを使用する。
2つのデータセットに対する実験結果から,提案手法(CtF)は現在のハッシュReID法よりも8%精度が高いだけでなく,5倍高速であることがわかった。
論文 参考訳(メタデータ) (2020-08-16T03:02:49Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。