論文の概要: Are Decoder-Only Large Language Models the Silver Bullet for Code Search?
- arxiv url: http://arxiv.org/abs/2410.22240v1
- Date: Tue, 29 Oct 2024 17:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:49.276820
- Title: Are Decoder-Only Large Language Models the Silver Bullet for Code Search?
- Title(参考訳): デコーダのみの大規模言語モデルは、コード検索のための銀の弾丸か?
- Authors: Yuxuan Chen, Guangsheng Ou, Mingwei Liu, Yanlin Wang, Zibin Zheng,
- Abstract要約: 本研究では,コード検索のためのデコーダのみの大規模言語モデルについて,初めて体系的な検討を行った。
2つの微調整法、2つのデータセット、3つのモデルサイズを用いて、最先端デコーダのみの9つのモデルを評価する。
この結果,微調整のCodeGemmaはUniXcoderのようなエンコーダのみのモデルよりも大幅に優れていることがわかった。
- 参考スコア(独自算出の注目度): 32.338318300589776
- License:
- Abstract: Code search is crucial for code reuse, enabling developers to efficiently locate relevant snippets. Current methods rely on encoder-based models, which suffer from limitations such as poor generalization and restricted input lengths. Decoder-only large language models (LLMs), with their extensive pre-training, larger size, and longer input capabilities, offer potential solutions to these issues, yet their effectiveness in code search remains underexplored. To fill this gap, our study presents the first systematic exploration of decoder-only LLMs for code search. We evaluate nine state-of-the-art decoder-only models using two fine-tuning methods, two datasets (CSN and CoSQA$^+$), and three model sizes. Our findings reveal that fine-tuned CodeGemma significantly outperforms encoder-only models like UniXcoder, achieving a 5.57% improvement in MRR on CSN and a 49.6% increase in MAP on CoSQA$^+$ compared to zero-shot UniXcoder. These results highlight the superior performance and adaptability of decoder-only models. Additionally, we provide valuable insights into optimizing these models for code search, covering aspects such as model selection, fine-tuning methods, training data, and model size, and discussing their strengths and limitations.
- Abstract(参考訳): コード検索はコードの再利用に不可欠であり、開発者は関連スニペットを効率的に見つけることができる。
現在の手法はエンコーダベースのモデルに依存しており、一般化不足や制限された入力長といった制限に悩まされている。
デコーダのみの大規模言語モデル(LLM)は、広範な事前学習、より大きなサイズ、より長い入力能力を持ち、これらの問題に対する潜在的な解決策を提供するが、コード検索におけるその有効性は未定である。
このギャップを埋めるために、コード検索のためのデコーダのみのLLMを初めて体系的に探索した。
2つの微調整法と2つのデータセット(CSNとCoSQA$^+$)と3つのモデルサイズを用いて、最先端デコーダのみの9つのモデルを評価する。
この結果,UniXcoderのようなエンコーダのみのモデルよりも微調整のCodeGemmaの方が優れており,CSN上のMRRが5.57%向上し,CoSQA$^+$でMAPが49.6%向上していることがわかった。
これらの結果はデコーダのみのモデルの性能と適応性を強調している。
さらに、コード検索のためにこれらのモデルを最適化し、モデル選択、微調整方法、トレーニングデータ、モデルサイズといった側面をカバーし、その強みと制限について議論する上で、貴重な洞察を提供する。
関連論文リスト
- You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4064488592704]
大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。
YOCOはキーと値のペアを一度だけキャッシュする。
全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
論文 参考訳(メタデータ) (2024-05-08T17:57:39Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Comparative Study on the Performance of Categorical Variable Encoders in
Classification and Regression Tasks [11.721062526796976]
本研究では,(1)入力に対するアフィン変換を暗黙的に実行するAITモデル,2)決定木に基づく木に基づくモデル,3)kNNなどの他のモデルに分類する。
理論的には、データから適切な重みを学習することで、他のエンコーダを模倣できるという意味で、ワンホットエンコーダがAITモデルにとって最良の選択であることを示す。
また、ターゲットエンコーダとその変種が木モデルに適したエンコーダである理由についても説明する。
論文 参考訳(メタデータ) (2024-01-18T02:21:53Z) - Lego-Features: Exporting modular encoder features for streaming and
deliberation ASR [34.23347991756358]
モジュール化されたエンコーダ表現によるエンコーダの構築を探求し始めている作業の上に構築する。
私たちのフレームワークは、既存のエンコードされた表現の上に構築され、Lego-Featuresと呼ばれるモジュラー機能に変換します。
RNN-TやLASデコーダでテストすると,Lego-Featuresは強力であることがわかった。
論文 参考訳(メタデータ) (2023-03-31T23:33:21Z) - Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。
RM符号は制限されたレートのみを許容する。
効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文 参考訳(メタデータ) (2023-01-16T04:11:14Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。