論文の概要: Improving Code Example Recommendations on Informal Documentation Using
BERT and Query-Aware LSH: A Comparative Study
- arxiv url: http://arxiv.org/abs/2305.03017v3
- Date: Thu, 20 Jul 2023 16:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 18:08:35.477309
- Title: Improving Code Example Recommendations on Informal Documentation Using
BERT and Query-Aware LSH: A Comparative Study
- Title(参考訳): BERT と Query-Aware LSH を用いたインフォームドキュメンテーションにおけるコード例推薦の改善 : 比較検討
- Authors: Sajjad Rahmani, AmirHossein Naghshzan, Latifa Guerrouj
- Abstract要約: 私たちの研究の焦点は、議論やソリューションのコーディングによく使われるリソースであるStack Overflowです。
コード例を数値ベクトルに変換するために,強力な大規模言語モデル (LLM) であるBERTを適用した。
LSH(Locality-Sensitive Hashing)を用いたANN(Adroximate Nearest Neighbors)の同定
本研究では,Random Hyperplane-based (RH) 法よりもQuery-Aware (QA) 法の方が優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our research investigates the recommendation of code examples to aid software
developers, a practice that saves developers significant time by providing
ready-to-use code snippets. The focus of our study is Stack Overflow, a
commonly used resource for coding discussions and solutions, particularly in
the context of the Java programming language. We applied BERT, a powerful Large
Language Model (LLM) that enables us to transform code examples into numerical
vectors by extracting their semantic information. Once these numerical
representations are prepared, we identify Approximate Nearest Neighbors (ANN)
using Locality-Sensitive Hashing (LSH). Our research employed two variants of
LSH: Random Hyperplane-based LSH and Query-Aware LSH. We rigorously compared
these two approaches across four parameters: HitRate, Mean Reciprocal Rank
(MRR), Average Execution Time, and Relevance. Our study revealed that the
Query-Aware (QA) approach showed superior performance over the Random
Hyperplane-based (RH) method. Specifically, it exhibited a notable improvement
of 20% to 35% in HitRate for query pairs compared to the RH approach.
Furthermore, the QA approach proved significantly more time-efficient, with its
speed in creating hashing tables and assigning data samples to buckets being at
least four times faster. It can return code examples within milliseconds,
whereas the RH approach typically requires several seconds to recommend code
examples. Due to the superior performance of the QA approach, we tested it
against PostFinder and FaCoY, the state-of-the-art baselines. Our QA method
showed comparable efficiency proving its potential for effective code
recommendation.
- Abstract(参考訳): 本研究は,コードスニペットの用意により,開発者がかなりの時間を節約できるソフトウェア開発者の支援を目的としたコード例の推薦について検討する。
私たちの研究の焦点はStack Overflowで、特にJavaプログラミング言語のコンテキストにおいて、議論やソリューションをコーディングするのによく使われるリソースです。
我々は,LLM(Large Language Model)であるBERTを適用し,コード例を意味情報を抽出して数値ベクトルに変換する。
これらの数値表現が準備されたら、Locality-Sensitive Hashing (LSH) を用いて近似近傍隣人(ANN)を同定する。
LSHにはランダム・ハイパープレーン・ベースLSHとクエリ・アウェアLSHの2つのバリエーションがある。
これらの2つのアプローチを,hitrate, mean reciprocal rank (mrr), average execution time, associatedの4つのパラメータで厳密に比較した。
本研究では,Random Hyperplane-based (RH) 法よりもQuery-Aware (QA) 法の方が優れた性能を示した。
具体的には、RHアプローチと比較して、クエリペアに対してHitRateが20%から35%向上した。
さらに、ハッシュテーブルの作成とデータサンプルのバケットへの割り当てを少なくとも4倍高速にすることで、QAアプローチは大幅に時間効率が向上した。
コード例をミリ秒以内に返すことができるが、RHアプローチは通常、コード例を推奨するのに数秒を要する。
QAアプローチの優れたパフォーマンスのため、最先端のベースラインであるPostFinderとFaCoYに対してテストしました。
提案手法は,有効なコード推薦の可能性を証明した。
関連論文リスト
- Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-14T11:19:28Z) - LLM Agents Improve Semantic Code Search [6.047454623201181]
本稿では、ユーザプロンプトに情報を注入する検索拡張型エージェントのアプローチを提案する。
RAGを利用することで、エージェントはGitHubリポジトリから関連する詳細でユーザクエリを強化し、より情報的でコンテキスト整合性を高めます。
CodeSearchNetデータセットの実験結果は、RepoRiftが既存のメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-08-05T00:43:56Z) - DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。
提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-06-12T06:33:54Z) - LlamaRec: Two-Stage Recommendation using Large Language Models for
Ranking [10.671747198171136]
ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。
特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。
LlamaRecは、推奨パフォーマンスと効率の両方において、データセットの優れたパフォーマンスを一貫して達成している。
論文 参考訳(メタデータ) (2023-10-25T06:23:48Z) - An In-Context Learning Agent for Formal Theorem-Proving [10.657173216834668]
我々は、LeanやCoqのような環境で、形式的定理コンテキストのためのコンテキスト内学習エージェントを提示します。
COPRAは大規模言語モデルに対して、ステートフルなバックトラック検索から戦術的応用を提案することを何度も求めている。
我々はCompCertプロジェクトのMiniF2FベンチマークとCoqタスクセットに対するCOPRAの実装を評価した。
論文 参考訳(メタデータ) (2023-10-06T16:21:22Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models [11.78036105494679]
本稿では,Large Language Models (LLMs) の性能を向上させる新しいコード・ツー・コード検索手法を提案する。
本稿では,学習中の動的情報を検索対象のコーパスや,推論時に検索クエリを実行することなく符号化するコード検索手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T20:46:56Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Faster Person Re-Identification [68.22203008760269]
本稿では,新しいハッシュコード検索戦略を定式化することによって,高速ReIDのための新しいソリューションを提案する。
より短いコードを使用して、より正確なReIDのいくつかのトップ候補を洗練するために、より広い一致の類似性を粗くランク付けし、より長いコードを使用する。
2つのデータセットに対する実験結果から,提案手法(CtF)は現在のハッシュReID法よりも8%精度が高いだけでなく,5倍高速であることがわかった。
論文 参考訳(メタデータ) (2020-08-16T03:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。