論文の概要: Are Decoder-Only Large Language Models the Silver Bullet for Code Search?
- arxiv url: http://arxiv.org/abs/2410.22240v2
- Date: Sat, 30 Aug 2025 16:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.037145
- Title: Are Decoder-Only Large Language Models the Silver Bullet for Code Search?
- Title(参考訳): デコーダのみの大規模言語モデルは、コード検索のための銀の弾丸か?
- Authors: Yuxuan Chen, Mingwei Liu, Guangsheng Ou, Anji Li, Dekun Dai, Yanlin Wang, Zibin Zheng,
- Abstract要約: コード検索はコードの再利用に不可欠であり、開発者は関連コードスニペットを効率的に見つけることができる。
強力なデコーダのみの大規模言語モデル(LLM)は多くのコードインテリジェンスタスクに革命をもたらした。
本稿では,11個のデコーダのみのLCMのシステム評価を行い,その性能をゼロショットと微調整で解析する。
- 参考スコア(独自算出の注目度): 44.9422305001193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code search is essential for code reuse, allowing developers to efficiently locate relevant code snippets. The advent of powerful decoder-only Large Language Models (LLMs) has revolutionized many code intelligence tasks. However, their effectiveness for the retrieval-based task of code search, particularly compared to established encoder-based models, remains underexplored. This paper addresses this gap by presenting a large-scale systematic evaluation of eleven decoder-only LLMs, analyzing their performance across zero-shot and fine-tuned settings. Our results show that fine-tuned decoder-only models, particularly CodeGemma, significantly outperform encoder-only models like UniXcoder, achieving a 40.4% higher Mean Average Precision (MAP) on the CoSQA$^+$ benchmark. Our analysis further reveals two crucial nuances for practitioners: first, the relationship between model size and performance is non-monotonic, with mid-sized models often outperforming larger variants; second, the composition of the training data is critical, as a multilingual dataset enhances generalization while a small amount of data from a specific language can act as noise and interfere with model effectiveness. These findings offer a comprehensive guide to selecting and optimizing modern LLMs for code search.
- Abstract(参考訳): コード検索はコードの再利用に不可欠であり、開発者は関連コードスニペットを効率的に見つけることができる。
強力なデコーダのみの大規模言語モデル(LLM)の出現は、多くのコードインテリジェンスタスクに革命をもたらした。
しかし、コード検索の検索に基づくタスクの有効性は、確立されたエンコーダベースのモデルと比較すると、未検討のままである。
本稿では,11個のデコーダのみのLLMを大規模に体系的に評価し,その性能をゼロショットと微調整で解析することによって,このギャップを解消する。
この結果から、細調整デコーダのみのモデル、特にCodeGemmaは、UniXcoderのようなエンコーダのみのモデルよりも優れており、CoSQA$^+$ベンチマークで平均平均精度(MAP)が40.4%向上していることがわかった。
モデルサイズと性能の関係は非モノトニックであり,中規模のモデルでは大きなバリエーションを上回ることがしばしばある。また,マルチリンガルなデータセットが一般化を高め,特定の言語からの少量のデータがノイズとして作用し,モデルの有効性を妨げるため,トレーニングデータの合成が重要となる。
これらの発見は、コード検索のための現代的なLLMの選択と最適化のための包括的なガイドを提供する。
関連論文リスト
- Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model [30.945523139748634]
我々は、エンコーダ-デコーダ LLM (RedLLM) を再検討し、デコーダ専用 LLM (DecLLM) の最近のレシピで拡張する。
我々は、プレフィックス言語モデリング(LM)で事前訓練されたRedLLMと、因果的LMで事前訓練されたDecLLMとを、異なるモデルスケールで総合的に比較する。
プレトレーニングにRedPajama V1(1.6Tトークン)、インストラクションチューニングにFLANを用いることで、RedLLMは魅力的なスケーリング特性と驚くほど強力なパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-10-30T15:48:28Z) - Seq vs Seq: An Open Suite of Paired Encoders and Decoders [37.62535961965971]
我々は,1700万のパラメータから10億までの,ペア付きエンコーダのみとデコーダのみのモデルであるSOTAオープンデータEttinスイートを紹介する。
エンコーダのみのモデルとデコーダのみのモデルの両方で同じレシピを使用して、それぞれのサイズで両方のカテゴリでSOTAレシピを生成する。
本稿では,デコーダモデルをエンコーダのタスク(およびその逆も)に適応させることが,逆の目的のみを使用する場合に比べて低いことを示す。
論文 参考訳(メタデータ) (2025-07-15T15:31:51Z) - Leveraging Decoder Architectures for Learned Sparse Retrieval [26.483483554222012]
Learned Sparse Retrieval (LSR) は従来,エンコーダのみの小型トランスアーキテクチャに重点を置いてきた。
本研究では,異なるトランスアーキテクチャにおけるLSRの有効性について検討した。
論文 参考訳(メタデータ) (2025-04-25T08:04:52Z) - Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.19855651708349]
我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。
適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。
同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
論文 参考訳(メタデータ) (2025-04-08T17:13:41Z) - Every Sample Matters: Leveraging Mixture-of-Experts and High-Quality Data for Efficient and Accurate Code LLM [43.77512279007385]
Ling-Coder-Liteは、包括的なパフォーマンスと究極の効率を備えた、コード大言語モデルである。
我々は、高品質なデータキュレーション手法とともに、効率的なMixture-of-Experts(MoE)アーキテクチャを活用する。
Ling-Coder-Liteは、同じサイズの最先端モデルと比較して、12の代表的なコーディングベンチマークでオンパーパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-22T15:00:18Z) - D2LLM: Decomposed and Distilled Large Language Models for Semantic Search [18.63768158439252]
D2LLMs-Decomposed and Distilled LLMs for semantic search。
クロスエンコーダを効率的なバイエンコーダに分解し,マルチヘッド・アテンションとインタラクション・エミュレーション・モジュールによるポーリングと統合する。
実験の結果,D2LLMは3つのタスクにまたがるすべての指標において,主要なベースラインを5つ超えていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T04:03:04Z) - Encoder vs Decoder: Comparative Analysis of Encoder and Decoder Language Models on Multilingual NLU Tasks [4.851704512420683]
NLUタスク上でデコーダモデルを評価する手法を導入し,デンマーク語,スウェーデン語,ノルウェー語,アイスランド語,フェロー語,ドイツ語,オランダ語,英語の言語に適用する。
その結果,デコーダモデルよりも桁数が小さいにもかかわらず,エンコーダモデルの方がはるかに優れたNLU性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-19T11:50:09Z) - You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4064488592704]
大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。
YOCOはキーと値のペアを一度だけキャッシュする。
全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
論文 参考訳(メタデータ) (2024-05-08T17:57:39Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Comparative Study on the Performance of Categorical Variable Encoders in
Classification and Regression Tasks [11.721062526796976]
本研究では,(1)入力に対するアフィン変換を暗黙的に実行するAITモデル,2)決定木に基づく木に基づくモデル,3)kNNなどの他のモデルに分類する。
理論的には、データから適切な重みを学習することで、他のエンコーダを模倣できるという意味で、ワンホットエンコーダがAITモデルにとって最良の選択であることを示す。
また、ターゲットエンコーダとその変種が木モデルに適したエンコーダである理由についても説明する。
論文 参考訳(メタデータ) (2024-01-18T02:21:53Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Lego-Features: Exporting modular encoder features for streaming and
deliberation ASR [34.23347991756358]
モジュール化されたエンコーダ表現によるエンコーダの構築を探求し始めている作業の上に構築する。
私たちのフレームワークは、既存のエンコードされた表現の上に構築され、Lego-Featuresと呼ばれるモジュラー機能に変換します。
RNN-TやLASデコーダでテストすると,Lego-Featuresは強力であることがわかった。
論文 参考訳(メタデータ) (2023-03-31T23:33:21Z) - Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。
RM符号は制限されたレートのみを許容する。
効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文 参考訳(メタデータ) (2023-01-16T04:11:14Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。