Fugu-MT 論文翻訳(概要): Improving Code Example Recommendations on Informal Documentation Using BERT and Query-Aware LSH: A Comparative Study

論文の概要: Improving Code Example Recommendations on Informal Documentation Using BERT and Query-Aware LSH: A Comparative Study

arxiv url: http://arxiv.org/abs/2305.03017v2
Date: Mon, 10 Jul 2023 22:15:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-12 18:29:46.591355
Title: Improving Code Example Recommendations on Informal Documentation Using BERT and Query-Aware LSH: A Comparative Study
Title（参考訳）: BERT と Query-Aware LSH を用いたインフォームドキュメンテーションにおけるコード例推薦の改善 : 比較検討
Authors: Sajjad Rahmani, AmirHossein Naghshzan, Latifa Guerrouj
Abstract要約: 私たちの研究の焦点は、議論やソリューションのコーディングによく使われるリソースであるStack Overflowです。コード例を数値ベクトルに変換するために,強力な大規模言語モデル (LLM) であるBERTを適用した。 LSH(Locality-Sensitive Hashing)を用いたANN(Adroximate Nearest Neighbors)の同定本研究では,Random Hyperplane-based (RH) 法よりもQuery-Aware (QA) 法の方が優れた性能を示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Our research investigates the recommendation of code examples to aid software developers, a practice that saves developers significant time by providing ready-to-use code snippets. The focus of our study is Stack Overflow, a commonly used resource for coding discussions and solutions, particularly in the context of the Java programming language. We applied BERT, a powerful Large Language Model (LLM) that enables us to transform code examples into numerical vectors by extracting their semantic information. Once these numerical representations are prepared, we identify Approximate Nearest Neighbors (ANN) using Locality-Sensitive Hashing (LSH). Our research employed two variants of LSH: Random Hyperplane-based LSH and Query-Aware LSH. We rigorously compared these two approaches across four parameters: HitRate, Mean Reciprocal Rank (MRR), Average Execution Time, and Relevance. Our study revealed that the Query-Aware (QA) approach showed superior performance over the Random Hyperplane-based (RH) method. Specifically, it exhibited a notable improvement of 20% to 35% in HitRate for query pairs compared to the RH approach. Furthermore, the QA approach proved significantly more time-efficient, with its speed in creating hashing tables and assigning data samples to buckets being at least four times faster. It can return code examples within milliseconds, whereas the RH approach typically requires several seconds to recommend code examples. Due to the superior performance of the QA approach, we tested it against PostFinder and FaCoY, the state-of-the-art baselines. Our QA method showed comparable efficiency proving its potential for effective code recommendation.
Abstract（参考訳）: 本研究は,コードスニペットの用意により,開発者がかなりの時間を節約できるソフトウェア開発者の支援を目的としたコード例の推薦について検討する。私たちの研究の焦点はStack Overflowで、特にJavaプログラミング言語のコンテキストにおいて、議論やソリューションをコーディングするのによく使われるリソースです。我々は,LLM(Large Language Model)であるBERTを適用し,コード例を意味情報を抽出して数値ベクトルに変換する。これらの数値表現が準備されたら、Locality-Sensitive Hashing (LSH) を用いて近似近傍隣人(ANN)を同定する。 LSHにはランダム・ハイパープレーン・ベースLSHとクエリ・アウェアLSHの2つのバリエーションがある。これらの2つのアプローチを,hitrate, mean reciprocal rank (mrr), average execution time, associatedの4つのパラメータで厳密に比較した。本研究では,Random Hyperplane-based (RH) 法よりもQuery-Aware (QA) 法の方が優れた性能を示した。具体的には、RHアプローチと比較して、クエリペアに対してHitRateが20%から35%向上した。さらに、ハッシュテーブルの作成とデータサンプルのバケットへの割り当てを少なくとも4倍高速にすることで、QAアプローチは大幅に時間効率が向上した。コード例をミリ秒以内に返すことができるが、RHアプローチは通常、コード例を推奨するのに数秒を要する。 QAアプローチの優れたパフォーマンスのため、最先端のベースラインであるPostFinderとFaCoYに対してテストしました。提案手法は,有効なコード推薦の可能性を証明した。

関連論文リスト

The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。 WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文参考訳（メタデータ） (2025-07-16T06:41:03Z)
FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文参考訳（メタデータ） (2025-07-10T11:02:13Z)
SECRET: Towards Scalable and Efficient Code Retrieval via Segmented Deep Hashing [83.35231185111464]
ディープラーニングは、検索パラダイムを語彙ベースのマッチングから、ソースコードとクエリをベクトル表現にエンコードした。従来の研究では、クエリやコードスニペットのハッシュコードを生成し、ハミング距離を使ってコード候補を高速にリコールするディープハッシュベースの手法が提案されている。提案手法は,既存の深層ハッシュ法によって計算された長いハッシュコードを,反復的学習戦略により複数の短いハッシュコードセグメントに変換する手法である。
論文参考訳（メタデータ） (2024-12-16T12:51:35Z)
Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文参考訳（メタデータ） (2024-08-14T11:19:28Z)
LLM Agents Improve Semantic Code Search [6.047454623201181]
本稿では、ユーザプロンプトに情報を注入する検索拡張型エージェントのアプローチを提案する。 RAGを利用することで、エージェントはGitHubリポジトリから関連する詳細でユーザクエリを強化し、より情報的でコンテキスト整合性を高めます。 CodeSearchNetデータセットの実験結果は、RepoRiftが既存のメソッドを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2024-08-05T00:43:56Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2024-06-12T06:33:54Z)
LlamaRec: Two-Stage Recommendation using Large Language Models for Ranking [10.671747198171136]
ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。 LlamaRecは、推奨パフォーマンスと効率の両方において、データセットの優れたパフォーマンスを一貫して達成している。
論文参考訳（メタデータ） (2023-10-25T06:23:48Z)
An In-Context Learning Agent for Formal Theorem-Proving [10.657173216834668]
我々は、LeanやCoqのような環境で、形式的定理コンテキストのためのコンテキスト内学習エージェントを提示します。 COPRAは大規模言語モデルに対して、ステートフルなバックトラック検索から戦術的応用を提案することを何度も求めている。我々はCompCertプロジェクトのMiniF2FベンチマークとCoqタスクセットに対するCOPRAの実装を評価した。
論文参考訳（メタデータ） (2023-10-06T16:21:22Z)
DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。 DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文参考訳（メタデータ） (2023-10-04T16:44:37Z)
REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models [11.78036105494679]
本稿では,Large Language Models (LLMs) の性能を向上させる新しいコード・ツー・コード検索手法を提案する。本稿では,学習中の動的情報を検索対象のコーパスや,推論時に検索クエリを実行することなく符号化するコード検索手法を提案する。
論文参考訳（メタデータ） (2023-05-05T20:46:56Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文参考訳（メタデータ） (2022-03-11T18:53:12Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Faster Person Re-Identification [68.22203008760269]
本稿では,新しいハッシュコード検索戦略を定式化することによって,高速ReIDのための新しいソリューションを提案する。より短いコードを使用して、より正確なReIDのいくつかのトップ候補を洗練するために、より広い一致の類似性を粗くランク付けし、より長いコードを使用する。 2つのデータセットに対する実験結果から,提案手法(CtF)は現在のハッシュReID法よりも8%精度が高いだけでなく,5倍高速であることがわかった。
論文参考訳（メタデータ） (2020-08-16T03:02:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。