論文の概要: On Contrastive Learning of Semantic Similarity forCode to Code Search
- arxiv url: http://arxiv.org/abs/2305.03843v1
- Date: Fri, 5 May 2023 20:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 19:13:35.053936
- Title: On Contrastive Learning of Semantic Similarity forCode to Code Search
- Title(参考訳): コード検索のための意味的類似性のコントラスト学習について
- Authors: Anthony Saieva, Saikat Chakraborty, Gail Kaiser
- Abstract要約: 本稿では,Large Language Models (LLMs) の性能を向上させる新しいコード・ツー・コード検索手法を提案する。
本稿では,学習中の動的情報を検索対象のコーパスや,推論時に検索クエリを実行することなく符号化するコード検索手法を提案する。
- 参考スコア(独自算出の注目度): 10.269997499911668
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper introduces a novel code-to-code search technique that enhances the
performance of Large Language Models (LLMs) by including both static and
dynamic features as well as utilizing both similar and dissimilar examples
during training. We present the first-ever code search method that encodes
dynamic runtime information during training without the need to execute either
the corpus under search or the search query at inference time and the first
code search technique that trains on both positive and negative reference
samples. To validate the efficacy of our approach, we perform a set of studies
demonstrating the capability of enhanced LLMs to perform cross-language
code-to-code search.
Our evaluation demonstrates that the effectiveness of our approach is
consistent across various model architectures and programming languages. We
outperform the state-of-the-art cross-language search tool by up to 44.7\%.
Moreover, our ablation studies reveal that even a single positive and negative
reference sample in the training process results in substantial performance
improvements demonstrating both similar and dissimilar references are important
parts of code search. Importantly, we show that enhanced well-crafted,
fine-tuned models consistently outperform enhanced larger modern LLMs without
fine tuning, even when enhancing the largest available LLMs highlighting the
importance for open-sourced models.
To ensure the reproducibility and extensibility of our research, we present
an open-sourced implementation of our tool and training procedures called
Cosco.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の性能向上を図り,静的特徴と動的特徴の両方を取り入れた新しいコード・コード検索手法を提案する。
本稿では,探索中のコーパスや検索クエリを推論時に実行することなく,トレーニング中に動的ランタイム情報をエンコードするコード検索手法と,正と負の両方の参照サンプルをトレーニングするコード検索手法を提案する。
提案手法の有効性を検証するために,拡張LDMによる言語間コード検索の能力を示す一連の研究を行った。
評価の結果,提案手法の有効性は様々なモデルアーキテクチャやプログラミング言語で一致していることがわかった。
我々は、最先端のクロス言語検索ツールを最大44.7\%で上回っている。
さらに,訓練過程における単一の正および負の参照サンプルであっても,類似参照と異種参照の両方がコード検索の重要な部分であることを示すことにより,性能が大幅に向上することが明らかとなった。
重要なことは、オープンソースモデルの重要性を強調した最大のLLMを拡張しても、改良された改良された細調整モデルが微調整なしで常に向上していることを示している。
本研究の再現性と拡張性を確保するため,Coscoと呼ばれるツールとトレーニング手順のオープンソース実装を提案する。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Contrastive Prompt Learning-based Code Search based on Interaction
Matrix [5.379749366580253]
CPLCSは,クロスモーダルな相互作用機構に基づく,コントラッシブな学習に基づくコード検索手法である。
我々は,6つのプログラム言語にわたる実世界のデータセットに対するアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-10-10T06:24:52Z) - KRLS: Improving End-to-End Response Generation in Task Oriented Dialog
with Reinforced Keywords Learning [25.421649004269373]
タスク指向ダイアログ(TOD)では、強化学習アルゴリズムがタスク関連メトリクスの応答を直接最適化するためにモデルを訓練する。
オフライン環境でのTOD性能を改善するために,より効率的なRLベースのアルゴリズムを提案する。
MultiWoZデータセットの実験では、我々の新しいトレーニングアルゴリズムであるKeywords Reinforcement Learning with Next-word Smpling (KRLS)が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-11-30T06:27:46Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Building an Efficient and Effective Retrieval-based Dialogue System via
Mutual Learning [27.04857039060308]
検索システムを構築するために,両世界の長所を組み合わせることを提案する。
従来の機能ベースの事前検索モデルを置き換えるために、高速なバイエンコーダを使用します。
我々は、相互学習を通じて、事前検索モデルと再評価モデルとを同時に訓練する。
論文 参考訳(メタデータ) (2021-10-01T01:32:33Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。