論文の概要: A Survey of Source Code Search: A 3-Dimensional Perspective
- arxiv url: http://arxiv.org/abs/2311.07107v1
- Date: Mon, 13 Nov 2023 06:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:26:41.501499
- Title: A Survey of Source Code Search: A 3-Dimensional Perspective
- Title(参考訳): ソースコード検索に関する調査 : 三次元的展望
- Authors: Weisong Sun, Chunrong Fang, Yifei Ge, Yuling Hu, Yuchen Chen, Quanjun
Zhang, Xiuting Ge, Yang Liu, Zhenyu Chen
- Abstract要約: コード検索は、ソフトウェア開発の生産性と品質を改善することができるため、ソフトウェア工学研究者によって広く関心を集めている。
効率的かつ効率的なコード検索を実現するため,多くの手法が提案されている。
- 参考スコア(独自算出の注目度): 17.524674603550043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: (Source) code search is widely concerned by software engineering researchers
because it can improve the productivity and quality of software development.
Given a functionality requirement usually described in a natural language
sentence, a code search system can retrieve code snippets that satisfy the
requirement from a large-scale code corpus, e.g., GitHub. To realize effective
and efficient code search, many techniques have been proposed successively.
These techniques improve code search performance mainly by optimizing three
core components, including query understanding component, code understanding
component, and query-code matching component. In this paper, we provide a
3-dimensional perspective survey for code search. Specifically, we categorize
existing code search studies into query-end optimization techniques, code-end
optimization techniques, and match-end optimization techniques according to the
specific components they optimize. Considering that each end can be optimized
independently and contributes to the code search performance, we treat each end
as a dimension. Therefore, this survey is 3-dimensional in nature, and it
provides a comprehensive summary of each dimension in detail. To understand the
research trends of the three dimensions in existing code search studies, we
systematically review 68 relevant literatures. Different from existing code
search surveys that only focus on the query end or code end or introduce
various aspects shallowly (including codebase, evaluation metrics, modeling
technique, etc.), our survey provides a more nuanced analysis and review of the
evolution and development of the underlying techniques used in the three ends.
Based on a systematic review and summary of existing work, we outline several
open challenges and opportunities at the three ends that remain to be addressed
in future work.
- Abstract(参考訳): (ソース)コード検索は、ソフトウェア開発の生産性と品質を向上させることができるため、ソフトウェア工学研究者によって広く懸念されている。
自然言語文で通常記述される機能要件を考えると、コード検索システムは大規模なコードコーパス(GitHubなど)から要求を満たすコードスニペットを検索することができる。
効率的かつ効率的なコード検索を実現するため,多くの手法が提案されている。
これらの技術は、主にクエリ理解コンポーネント、コード理解コンポーネント、クエリ-コードマッチングコンポーネントを含む3つのコアコンポーネントを最適化することで、コード検索性能を向上させる。
本稿では,コード検索のための三次元視点調査を行う。
具体的には、既存のコード検索手法を、クエリーエンド最適化手法、コードーエンド最適化手法、マッチングーエンド最適化技法に分類する。
各エンドは独立して最適化でき、コード検索のパフォーマンスに寄与すると考えると、各エンドを次元として扱う。
したがって、この調査は自然界において3次元であり、各次元の詳細な概要を提供する。
既存のコード検索研究における3次元の研究動向を理解するため,68の文献を体系的にレビューした。
クエリ終端やコード終端のみに焦点を当てた既存のコード検索調査や,さまざまな側面(コードベースや評価指標,モデリング技術など)を浅く導入した調査とは違って,今回の調査は,3つの終端で使用される基盤となるテクニックの進化と開発に関する,より微妙な分析とレビューを提供します。
既存の作業の体系的なレビューと概要に基づいて,今後の作業で引き続き取り組まなければならない3つの課題と機会について概説する。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [65.5353313491402]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行うRethinkMCTSを紹介する。
我々は,検索中の誤った思考を洗練させるために,微動コード実行フィードバックからの言語フィードバックを構築した。
RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインよりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-09-15T02:07:28Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。
ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。
ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文 参考訳(メタデータ) (2024-05-13T07:56:15Z) - Survey of Code Search Based on Deep Learning [11.94599964179766]
この調査は、コード検索、すなわち、あるクエリにマッチするコードを取得することに焦点を当てている。
複雑な意味情報を抽出できるディープラーニングは、この分野で大きな成功を収めている。
本稿では,最先端のディープラーニングに基づくコード検索を記述した新しい分類法を提案する。
論文 参考訳(メタデータ) (2023-05-10T08:07:04Z) - Deep Learning Based Code Generation Methods: Literature Review [30.17038624027751]
本稿では、自然言語記述に従って関連するコードフラグメントを生成することを目的としたコード生成タスクに焦点を当てる。
本稿では,ディープラーニングに基づくコード生成手法に関する現在の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2023-03-02T08:25:42Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Learning Program Semantics with Code Representations: An Empirical Study [22.953964699210296]
プログラムセマンティクスの学習は、様々なコード知的なタスクの中核であり、基礎である。
現在の主流のコード表現テクニックを4つのカテゴリに分類する。
我々は,3つの多様で一般的なコード知能タスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2022-03-22T14:51:44Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - CoNCRA: A Convolutional Neural Network Code Retrieval Approach [0.0]
本稿では,コード検索のための畳み込みニューラルネットワーク手法を提案する。
私たちの技術は、自然言語で表現された開発者の意図に最も近いコードスニペットを見つけることを目的としています。
Stack Overflowから収集した質問やコードスニペットからなるデータセットに対して,このアプローチの有効性を評価した。
論文 参考訳(メタデータ) (2020-09-03T23:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。