Fugu-MT 論文翻訳(概要): Improving Code Example Recommendations on Informal Documentation Using BERT and Query-Aware LSH: A Comparative Study

論文の概要: Improving Code Example Recommendations on Informal Documentation Using BERT and Query-Aware LSH: A Comparative Study

arxiv url: http://arxiv.org/abs/2305.03017v1
Date: Thu, 4 May 2023 17:43:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-05 14:26:17.009399
Title: Improving Code Example Recommendations on Informal Documentation Using BERT and Query-Aware LSH: A Comparative Study
Title（参考訳）: BERT と Query-Aware LSH を用いたインフォームドキュメンテーションにおけるコード例推薦の改善 : 比較検討
Authors: Sajjad Rahmani, AmirHossein Naghshzan, Latifa Guerrouj
Abstract要約: Stack Overflowは、ソフトウェア開発者間で異なるトピックを議論するための一般的なリソースです。推奨コード例の品質を高めるため、Javaプログラミング言語の最良のコード例を収集し、推奨しました。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The study of code example recommendation has been conducted extensively in the past and recently in order to assist developers in their software development tasks. This is because developers often spend significant time searching for relevant code examples on the internet, utilizing open-source projects and informal documentation. For finding useful code examples, informal documentation, such as Stack Overflow discussions and forums, can be invaluable. We have focused our research on Stack Overflow, which is a popular resource for discussing different topics among software developers. For increasing the quality of the recommended code examples, we have collected and recommended the best code examples in the Java programming language. We have utilized BERT in our approach, which is a Large Language Model (LLM) for text representation that can effectively extract semantic information from textual data. Our first step involved using BERT to convert code examples into numerical vectors. Subsequently, we applied LSH to identify Approximate Nearest Neighbors (ANN). Our research involved the implementation of two variants of this approach, namely the Random Hyperplane-based LSH and the Query-Aware LSH. Our study compared two algorithms using four parameters: HitRate, Mean Reciprocal Rank (MRR), Average Execution Time, and Relevance. The results of our analysis revealed that the Query- Aware (QA) approach outperformed the Random Hyperplane-based (RH) approach in terms of HitRate. Specifically, the QA approach achieved a HitRate improvement of 20% to 35% for query pairs compared to the RH approach. Creating hashing tables and assigning data samples to buckets using the QA approach is at least four times faster than the RH approach. The QA approach returns code examples within milliseconds, while it takes several seconds (sec) for the RH approach to recommend code examples.
Abstract（参考訳）: コード例レコメンデーションの研究は、開発者がソフトウェア開発タスクを補助するために、過去および最近広範囲にわたって行われてきた。なぜなら、開発者はしばしば、オープンソースプロジェクトや非公式のドキュメントを利用して、インターネット上の関連するコード例を探すのにかなりの時間を費やしているからです。有用なコード例を見つけるには,Stack Overflowの議論やフォーラムなど,非公式なドキュメントが有用だ。 stack overflowはソフトウェア開発者の間でさまざまなトピックについて議論するための一般的なリソースです。推奨コード例の品質を高めるため、Javaプログラミング言語の最良のコード例を収集し、推奨しました。提案手法では,テキストデータから意味情報を効果的に抽出できるLarge Language Model (LLM) を用いてテキスト表現を行った。最初のステップはBERTを使ってコード例を数値ベクトルに変換することです。その後,LSHを用いてANN (Approximate Nearest Neighbors) を同定した。本研究は,Random HyperplaneベースのLSHとQuery-Aware LSHという,このアプローチの2つの変種を実装した。本研究は,HitRate,Mean Reciprocal Rank (MRR),Average Execution Time,Relevanceの4つのパラメータを用いた2つのアルゴリズムを比較した。解析の結果,Query-Aware (QA) アプローチはRandom Hyperplane-based (RH) アプローチよりもHitRate の方が優れていた。特に、qaアプローチは、rhアプローチと比較してクエリペアの20%から35%のヒット率向上を達成した。 QAアプローチを使用したハッシュテーブルの作成とデータサンプルのバケットへの割り当ては、RHアプローチの少なくとも4倍高速である。 QAアプローチはミリ秒以内にコード例を返すが、コード例を推奨するにはRHアプローチに数秒(秒)かかる。

関連論文リスト

The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。 WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文参考訳（メタデータ） (2025-07-16T06:41:03Z)
FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文参考訳（メタデータ） (2025-07-10T11:02:13Z)
SECRET: Towards Scalable and Efficient Code Retrieval via Segmented Deep Hashing [83.35231185111464]
ディープラーニングは、検索パラダイムを語彙ベースのマッチングから、ソースコードとクエリをベクトル表現にエンコードした。従来の研究では、クエリやコードスニペットのハッシュコードを生成し、ハミング距離を使ってコード候補を高速にリコールするディープハッシュベースの手法が提案されている。提案手法は,既存の深層ハッシュ法によって計算された長いハッシュコードを,反復的学習戦略により複数の短いハッシュコードセグメントに変換する手法である。
論文参考訳（メタデータ） (2024-12-16T12:51:35Z)
Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文参考訳（メタデータ） (2024-08-14T11:19:28Z)
LLM Agents Improve Semantic Code Search [6.047454623201181]
本稿では、ユーザプロンプトに情報を注入する検索拡張型エージェントのアプローチを提案する。 RAGを利用することで、エージェントはGitHubリポジトリから関連する詳細でユーザクエリを強化し、より情報的でコンテキスト整合性を高めます。 CodeSearchNetデータセットの実験結果は、RepoRiftが既存のメソッドを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2024-08-05T00:43:56Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2024-06-12T06:33:54Z)
LlamaRec: Two-Stage Recommendation using Large Language Models for Ranking [10.671747198171136]
ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。 LlamaRecは、推奨パフォーマンスと効率の両方において、データセットの優れたパフォーマンスを一貫して達成している。
論文参考訳（メタデータ） (2023-10-25T06:23:48Z)
An In-Context Learning Agent for Formal Theorem-Proving [10.657173216834668]
我々は、LeanやCoqのような環境で、形式的定理コンテキストのためのコンテキスト内学習エージェントを提示します。 COPRAは大規模言語モデルに対して、ステートフルなバックトラック検索から戦術的応用を提案することを何度も求めている。我々はCompCertプロジェクトのMiniF2FベンチマークとCoqタスクセットに対するCOPRAの実装を評価した。
論文参考訳（メタデータ） (2023-10-06T16:21:22Z)
DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。 DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文参考訳（メタデータ） (2023-10-04T16:44:37Z)
REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models [11.78036105494679]
本稿では,Large Language Models (LLMs) の性能を向上させる新しいコード・ツー・コード検索手法を提案する。本稿では,学習中の動的情報を検索対象のコーパスや,推論時に検索クエリを実行することなく符号化するコード検索手法を提案する。
論文参考訳（メタデータ） (2023-05-05T20:46:56Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文参考訳（メタデータ） (2022-03-11T18:53:12Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Faster Person Re-Identification [68.22203008760269]
本稿では,新しいハッシュコード検索戦略を定式化することによって,高速ReIDのための新しいソリューションを提案する。より短いコードを使用して、より正確なReIDのいくつかのトップ候補を洗練するために、より広い一致の類似性を粗くランク付けし、より長いコードを使用する。 2つのデータセットに対する実験結果から,提案手法(CtF)は現在のハッシュReID法よりも8%精度が高いだけでなく,5倍高速であることがわかった。
論文参考訳（メタデータ） (2020-08-16T03:02:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。