論文の概要: SECRET: Towards Scalable and Efficient Code Retrieval via Segmented Deep Hashing
- arxiv url: http://arxiv.org/abs/2412.11728v1
- Date: Mon, 16 Dec 2024 12:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:06.676243
- Title: SECRET: Towards Scalable and Efficient Code Retrieval via Segmented Deep Hashing
- Title(参考訳): SECRET: セグメンテッドディープハッシュによるスケーラブルで効率的なコード検索を目指す
- Authors: Wenchao Gu, Ensheng Shi, Yanlin Wang, Lun Du, Shi Han, Hongyu Zhang, Dongmei Zhang, Michael R. Lyu,
- Abstract要約: ディープラーニングは、検索パラダイムを語彙ベースのマッチングから、ソースコードとクエリをベクトル表現にエンコードした。
従来の研究では、クエリやコードスニペットのハッシュコードを生成し、ハミング距離を使ってコード候補を高速にリコールするディープハッシュベースの手法が提案されている。
提案手法は,既存の深層ハッシュ法によって計算された長いハッシュコードを,反復的学習戦略により複数の短いハッシュコードセグメントに変換する手法である。
- 参考スコア(独自算出の注目度): 83.35231185111464
- License:
- Abstract: Code retrieval, which retrieves code snippets based on users' natural language descriptions, is widely used by developers and plays a pivotal role in real-world software development. The advent of deep learning has shifted the retrieval paradigm from lexical-based matching towards leveraging deep learning models to encode source code and queries into vector representations, facilitating code retrieval according to vector similarity. Despite the effectiveness of these models, managing large-scale code database presents significant challenges. Previous research proposes deep hashing-based methods, which generate hash codes for queries and code snippets and use Hamming distance for rapid recall of code candidates. However, this approach's reliance on linear scanning of the entire code base limits its scalability. To further improve the efficiency of large-scale code retrieval, we propose a novel approach SECRET (Scalable and Efficient Code Retrieval via SegmEnTed deep hashing). SECRET converts long hash codes calculated by existing deep hashing approaches into several short hash code segments through an iterative training strategy. After training, SECRET recalls code candidates by looking up the hash tables for each segment, the time complexity of recall can thus be greatly reduced. Extensive experimental results demonstrate that SECRET can drastically reduce the retrieval time by at least 95% while achieving comparable or even higher performance of existing deep hashing approaches. Besides, SECRET also exhibits superior performance and efficiency compared to the classical hash table-based approach known as LSH under the same number of hash tables.
- Abstract(参考訳): ユーザの自然言語記述に基づいてコードスニペットを検索するコード検索は、開発者が広く利用し、現実世界のソフトウェア開発において重要な役割を果たす。
ディープラーニングの出現は、検索パラダイムを語彙ベースのマッチングから、ディープラーニングモデルを活用してソースコードとクエリをベクトル表現にエンコードし、ベクトル類似性に応じたコード検索を容易にするように移行した。
これらのモデルの有効性にもかかわらず、大規模なコードデータベースの管理には大きな課題がある。
従来の研究では、クエリやコードスニペットのハッシュコードを生成し、ハミング距離を使ってコード候補を高速にリコールするディープハッシュベースの手法が提案されている。
しかし、このアプローチはコードベース全体の線形スキャンに依存しているため、スケーラビリティは制限される。
大規模コード検索の効率をさらに向上するため,SECRET (SegEnTed Deep Hashingによるスケーラブルで効率的なコード検索) を提案する。
SECRETは、既存のディープハッシュアプローチによって計算された長いハッシュコードを、反復的なトレーニング戦略を通じていくつかの短いハッシュコードセグメントに変換する。
トレーニング後、SECRETは各セグメントのハッシュテーブルを検索することで、コード候補をリコールする。
大規模な実験結果から,SECRETは既存のディープハッシュ手法と同等あるいはそれ以上の性能を達成しつつ,検索時間を少なくとも95%削減できることがわかった。
さらに、SECRETは、LSHとして知られる古典的なハッシュテーブルベースのアプローチと比較して、同じハッシュテーブル数で性能と効率が優れている。
関連論文リスト
- A Flexible Plug-and-Play Module for Generating Variable-Length [61.095479786194836]
Nested Hash Layer (NHL) は、既存の深い教師付きハッシュモデル用に設計されたプラグイン・アンド・プレイモジュールである。
NHLは、異なる長さのハッシュコードをネストした方法で同時に生成する。
NHLは、様々な深層ハッシュモデルに対して優れた検索性能を達成する。
論文 参考訳(メタデータ) (2024-12-12T04:13:09Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Accelerating Code Search with Deep Hashing and Code Classification [64.3543949306799]
コード検索とは、自然言語クエリに基づいてソースコードコーパスから再利用可能なコードスニペットを検索することである。
深層ハッシュとコード分類を用いたコード検索を高速化する新しい手法CoSHCを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:05:30Z) - Representation Learning for Efficient and Effective Similarity Search
and Recommendation [6.280255585012339]
この論文は、より表現力のある表現とより効果的な類似度尺度を通じてハッシュコードの有効性を向上させる表現学習に貢献する。
コントリビューションは、類似性検索とレコメンデーションに関連するいくつかのタスクで実証的に検証される。
論文 参考訳(メタデータ) (2021-09-04T08:19:01Z) - MOON: Multi-Hash Codes Joint Learning for Cross-Media Retrieval [30.77157852327981]
クロスメディアハッシュ技術は高い計算効率と低ストレージコストで注目を集めている。
クロスメディア検索のための新しいMultiple hash cOdes jOint learNing法(MOON)を開発した。
論文 参考訳(メタデータ) (2021-08-17T14:47:47Z) - Unsupervised Multi-Index Semantic Hashing [23.169142004594434]
マルチインデックスハッシュに最適化することで,効率的かつ高効率なハッシュコードを学習する教師なしハッシュモデルを提案する。
文書類似度検索のタスクにおいて、MISHと最先端のセマンティックハッシュベースラインを実験的に比較する。
マルチインデックスハッシュは、線形スキャンと比較してベースラインの効率も向上しますが、MISHよりも33%遅くなっています。
論文 参考訳(メタデータ) (2021-03-26T13:33:48Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。