論文の概要: Improving Code Example Recommendations on Informal Documentation Using
BERT and Query-Aware LSH: A Comparative Study
- arxiv url: http://arxiv.org/abs/2305.03017v1
- Date: Thu, 4 May 2023 17:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:26:17.009399
- Title: Improving Code Example Recommendations on Informal Documentation Using
BERT and Query-Aware LSH: A Comparative Study
- Title(参考訳): BERT と Query-Aware LSH を用いたインフォームドキュメンテーションにおけるコード例推薦の改善 : 比較検討
- Authors: Sajjad Rahmani, AmirHossein Naghshzan, Latifa Guerrouj
- Abstract要約: Stack Overflowは、ソフトウェア開発者間で異なるトピックを議論するための一般的なリソースです。
推奨コード例の品質を高めるため、Javaプログラミング言語の最良のコード例を収集し、推奨しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of code example recommendation has been conducted extensively in
the past and recently in order to assist developers in their software
development tasks. This is because developers often spend significant time
searching for relevant code examples on the internet, utilizing open-source
projects and informal documentation. For finding useful code examples, informal
documentation, such as Stack Overflow discussions and forums, can be
invaluable. We have focused our research on Stack Overflow, which is a popular
resource for discussing different topics among software developers. For
increasing the quality of the recommended code examples, we have collected and
recommended the best code examples in the Java programming language. We have
utilized BERT in our approach, which is a Large Language Model (LLM) for text
representation that can effectively extract semantic information from textual
data. Our first step involved using BERT to convert code examples into
numerical vectors. Subsequently, we applied LSH to identify Approximate Nearest
Neighbors (ANN). Our research involved the implementation of two variants of
this approach, namely the Random Hyperplane-based LSH and the Query-Aware LSH.
Our study compared two algorithms using four parameters: HitRate, Mean
Reciprocal Rank (MRR), Average Execution Time, and Relevance. The results of
our analysis revealed that the Query- Aware (QA) approach outperformed the
Random Hyperplane-based (RH) approach in terms of HitRate. Specifically, the QA
approach achieved a HitRate improvement of 20% to 35% for query pairs compared
to the RH approach. Creating hashing tables and assigning data samples to
buckets using the QA approach is at least four times faster than the RH
approach. The QA approach returns code examples within milliseconds, while it
takes several seconds (sec) for the RH approach to recommend code examples.
- Abstract(参考訳): コード例レコメンデーションの研究は、開発者がソフトウェア開発タスクを補助するために、過去および最近広範囲にわたって行われてきた。
なぜなら、開発者はしばしば、オープンソースプロジェクトや非公式のドキュメントを利用して、インターネット上の関連するコード例を探すのにかなりの時間を費やしているからです。
有用なコード例を見つけるには,Stack Overflowの議論やフォーラムなど,非公式なドキュメントが有用だ。
stack overflowはソフトウェア開発者の間でさまざまなトピックについて議論するための一般的なリソースです。
推奨コード例の品質を高めるため、Javaプログラミング言語の最良のコード例を収集し、推奨しました。
提案手法では,テキストデータから意味情報を効果的に抽出できるLarge Language Model (LLM) を用いてテキスト表現を行った。
最初のステップはBERTを使ってコード例を数値ベクトルに変換することです。
その後,LSHを用いてANN (Approximate Nearest Neighbors) を同定した。
本研究は,Random HyperplaneベースのLSHとQuery-Aware LSHという,このアプローチの2つの変種を実装した。
本研究は,HitRate,Mean Reciprocal Rank (MRR),Average Execution Time,Relevanceの4つのパラメータを用いた2つのアルゴリズムを比較した。
解析の結果,Query-Aware (QA) アプローチはRandom Hyperplane-based (RH) アプローチよりもHitRate の方が優れていた。
特に、qaアプローチは、rhアプローチと比較してクエリペアの20%から35%のヒット率向上を達成した。
QAアプローチを使用したハッシュテーブルの作成とデータサンプルのバケットへの割り当ては、RHアプローチの少なくとも4倍高速である。
QAアプローチはミリ秒以内にコード例を返すが、コード例を推奨するにはRHアプローチに数秒(秒)かかる。
関連論文リスト
- Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-14T11:19:28Z) - LLM Agents Improve Semantic Code Search [6.047454623201181]
本稿では、ユーザプロンプトに情報を注入する検索拡張型エージェントのアプローチを提案する。
RAGを利用することで、エージェントはGitHubリポジトリから関連する詳細でユーザクエリを強化し、より情報的でコンテキスト整合性を高めます。
CodeSearchNetデータセットの実験結果は、RepoRiftが既存のメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-08-05T00:43:56Z) - DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。
提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-06-12T06:33:54Z) - LlamaRec: Two-Stage Recommendation using Large Language Models for
Ranking [10.671747198171136]
ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。
特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。
LlamaRecは、推奨パフォーマンスと効率の両方において、データセットの優れたパフォーマンスを一貫して達成している。
論文 参考訳(メタデータ) (2023-10-25T06:23:48Z) - An In-Context Learning Agent for Formal Theorem-Proving [10.657173216834668]
我々は、LeanやCoqのような環境で、形式的定理コンテキストのためのコンテキスト内学習エージェントを提示します。
COPRAは大規模言語モデルに対して、ステートフルなバックトラック検索から戦術的応用を提案することを何度も求めている。
我々はCompCertプロジェクトのMiniF2FベンチマークとCoqタスクセットに対するCOPRAの実装を評価した。
論文 参考訳(メタデータ) (2023-10-06T16:21:22Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models [11.78036105494679]
本稿では,Large Language Models (LLMs) の性能を向上させる新しいコード・ツー・コード検索手法を提案する。
本稿では,学習中の動的情報を検索対象のコーパスや,推論時に検索クエリを実行することなく符号化するコード検索手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T20:46:56Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Faster Person Re-Identification [68.22203008760269]
本稿では,新しいハッシュコード検索戦略を定式化することによって,高速ReIDのための新しいソリューションを提案する。
より短いコードを使用して、より正確なReIDのいくつかのトップ候補を洗練するために、より広い一致の類似性を粗くランク付けし、より長いコードを使用する。
2つのデータセットに対する実験結果から,提案手法(CtF)は現在のハッシュReID法よりも8%精度が高いだけでなく,5倍高速であることがわかった。
論文 参考訳(メタデータ) (2020-08-16T03:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。