Fugu-MT 論文翻訳(概要): A Survey of Source Code Search: A 3-Dimensional Perspective

論文の概要: A Survey of Source Code Search: A 3-Dimensional Perspective

arxiv url: http://arxiv.org/abs/2311.07107v1
Date: Mon, 13 Nov 2023 06:42:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 15:26:41.501499
Title: A Survey of Source Code Search: A 3-Dimensional Perspective
Title（参考訳）: ソースコード検索に関する調査 : 三次元的展望
Authors: Weisong Sun, Chunrong Fang, Yifei Ge, Yuling Hu, Yuchen Chen, Quanjun Zhang, Xiuting Ge, Yang Liu, Zhenyu Chen
Abstract要約: コード検索は、ソフトウェア開発の生産性と品質を改善することができるため、ソフトウェア工学研究者によって広く関心を集めている。効率的かつ効率的なコード検索を実現するため,多くの手法が提案されている。
参考スコア（独自算出の注目度）: 17.524674603550043
License: http://creativecommons.org/licenses/by/4.0/
Abstract: (Source) code search is widely concerned by software engineering researchers because it can improve the productivity and quality of software development. Given a functionality requirement usually described in a natural language sentence, a code search system can retrieve code snippets that satisfy the requirement from a large-scale code corpus, e.g., GitHub. To realize effective and efficient code search, many techniques have been proposed successively. These techniques improve code search performance mainly by optimizing three core components, including query understanding component, code understanding component, and query-code matching component. In this paper, we provide a 3-dimensional perspective survey for code search. Specifically, we categorize existing code search studies into query-end optimization techniques, code-end optimization techniques, and match-end optimization techniques according to the specific components they optimize. Considering that each end can be optimized independently and contributes to the code search performance, we treat each end as a dimension. Therefore, this survey is 3-dimensional in nature, and it provides a comprehensive summary of each dimension in detail. To understand the research trends of the three dimensions in existing code search studies, we systematically review 68 relevant literatures. Different from existing code search surveys that only focus on the query end or code end or introduce various aspects shallowly (including codebase, evaluation metrics, modeling technique, etc.), our survey provides a more nuanced analysis and review of the evolution and development of the underlying techniques used in the three ends. Based on a systematic review and summary of existing work, we outline several open challenges and opportunities at the three ends that remain to be addressed in future work.
Abstract（参考訳）: (ソース)コード検索は、ソフトウェア開発の生産性と品質を向上させることができるため、ソフトウェア工学研究者によって広く懸念されている。自然言語文で通常記述される機能要件を考えると、コード検索システムは大規模なコードコーパス(GitHubなど)から要求を満たすコードスニペットを検索することができる。効率的かつ効率的なコード検索を実現するため,多くの手法が提案されている。これらの技術は、主にクエリ理解コンポーネント、コード理解コンポーネント、クエリ-コードマッチングコンポーネントを含む3つのコアコンポーネントを最適化することで、コード検索性能を向上させる。本稿では,コード検索のための三次元視点調査を行う。具体的には、既存のコード検索手法を、クエリーエンド最適化手法、コードーエンド最適化手法、マッチングーエンド最適化技法に分類する。各エンドは独立して最適化でき、コード検索のパフォーマンスに寄与すると考えると、各エンドを次元として扱う。したがって、この調査は自然界において3次元であり、各次元の詳細な概要を提供する。既存のコード検索研究における3次元の研究動向を理解するため,68の文献を体系的にレビューした。クエリ終端やコード終端のみに焦点を当てた既存のコード検索調査や,さまざまな側面(コードベースや評価指標,モデリング技術など)を浅く導入した調査とは違って,今回の調査は,3つの終端で使用される基盤となるテクニックの進化と開発に関する,より微妙な分析とレビューを提供します。既存の作業の体系的なレビューと概要に基づいて,今後の作業で引き続き取り組まなければならない3つの課題と機会について概説する。

関連論文リスト

SmartSearch: Process Reward-Guided Query Refinement for Search Agents [63.46067892354375]
大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
論文参考訳（メタデータ） (2026-01-08T12:39:05Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
A Survey on Code Generation with LLM-based Agents [61.474191493322415]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。 LLMは3つのコア特徴によって特徴づけられる。本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文参考訳（メタデータ） (2025-07-31T18:17:36Z)
An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2025-04-30T17:02:06Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [65.5353313491402]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行うRethinkMCTSを紹介する。我々は,検索中の誤った思考を洗練させるために,微動コード実行フィードバックからの言語フィードバックを構築した。 RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインよりも優れていることを実証する。
論文参考訳（メタデータ） (2024-09-15T02:07:28Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。 ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。 ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文参考訳（メタデータ） (2024-05-13T07:56:15Z)
Survey of Code Search Based on Deep Learning [11.94599964179766]
この調査は、コード検索、すなわち、あるクエリにマッチするコードを取得することに焦点を当てている。複雑な意味情報を抽出できるディープラーニングは、この分野で大きな成功を収めている。本稿では,最先端のディープラーニングに基づくコード検索を記述した新しい分類法を提案する。
論文参考訳（メタデータ） (2023-05-10T08:07:04Z)
Deep Learning Based Code Generation Methods: Literature Review [30.17038624027751]
本稿では、自然言語記述に従って関連するコードフラグメントを生成することを目的としたコード生成タスクに焦点を当てる。本稿では,ディープラーニングに基づくコード生成手法に関する現在の研究を体系的にレビューする。
論文参考訳（メタデータ） (2023-03-02T08:25:42Z)
Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文参考訳（メタデータ） (2022-10-21T22:47:37Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
Learning Program Semantics with Code Representations: An Empirical Study [22.953964699210296]
プログラムセマンティクスの学習は、様々なコード知的なタスクの中核であり、基礎である。現在の主流のコード表現テクニックを4つのカテゴリに分類する。我々は,3つの多様で一般的なコード知能タスクにおいて,その性能を評価する。
論文参考訳（メタデータ） (2022-03-22T14:51:44Z)
COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。 COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文参考訳（メタデータ） (2020-10-19T13:53:38Z)
CoNCRA: A Convolutional Neural Network Code Retrieval Approach [0.0]
本稿では,コード検索のための畳み込みニューラルネットワーク手法を提案する。私たちの技術は、自然言語で表現された開発者の意図に最も近いコードスニペットを見つけることを目的としています。 Stack Overflowから収集した質問やコードスニペットからなるデータセットに対して,このアプローチの有効性を評価した。
論文参考訳（メタデータ） (2020-09-03T23:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。