Fugu-MT 論文翻訳(概要): Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search

論文の概要: Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search

arxiv url: http://arxiv.org/abs/2401.04514v1
Date: Tue, 9 Jan 2024 12:12:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 15:46:06.938210
Title: Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search
Title（参考訳）: コードを書き直す: 大規模言語モデル拡張コード検索のための簡単な方法
Authors: Haochen Li, Xin Zhou, Zhiqi Shen
Abstract要約: Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。本稿では,スタイル正規化のためのフレームワーク内でコード(ReCo)を書き換える,シンプルで効果的な方法を提案する。
参考スコア（独自算出の注目度）: 8.791624084146736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In code search, the Generation-Augmented Retrieval (GAR) framework, which generates exemplar code snippets to augment queries, has emerged as a promising strategy to address the principal challenge of modality misalignment between code snippets and natural language queries, particularly with the demonstrated code generation capabilities of Large Language Models (LLMs). Nevertheless, our preliminary investigations indicate that the improvements conferred by such an LLM-augmented framework are somewhat constrained. This limitation could potentially be ascribed to the fact that the generated codes, albeit functionally accurate, frequently display a pronounced stylistic deviation from the ground truth code in the codebase. In this paper, we extend the foundational GAR framework and propose a simple yet effective method that additionally Rewrites the Code (ReCo) within the codebase for style normalization. Experimental results demonstrate that ReCo significantly boosts retrieval accuracy across sparse (up to 35.7%), zero-shot dense (up to 27.6%), and fine-tuned dense (up to 23.6%) retrieval settings in diverse search scenarios. To further elucidate the advantages of ReCo and stimulate research in code style normalization, we introduce Code Style Similarity, the first metric tailored to quantify stylistic similarities in code. Notably, our empirical findings reveal the inadequacy of existing metrics in capturing stylistic nuances.
Abstract（参考訳）: コード検索において、クエリを増強するための典型的なコードスニペットを生成するGeneration-Augmented Retrieval(GAR)フレームワークは、特にLarge Language Models(LLMs)のコード生成機能において、コードスニペットと自然言語クエリ間のモダリティの不整合の主な課題に対処する、有望な戦略として登場した。しかし, 予備調査の結果, LLM 拡張フレームワークによる改善はある程度制約されていることが示唆された。この制限は、生成したコードが機能的に正確であり、コードベースの真理的なコードから顕著な様式的な逸脱をしばしば表示するという事実による可能性がある。本稿では,基礎的なGARフレームワークを拡張し,コードベース内でコード(ReCo)を書き換えてスタイルの正規化を行うシンプルな手法を提案する。実験の結果、ReCoはスパース(最大35.7%)、ゼロショット密度(最大27.6%)、微調整密度(最大23.6%)の検索設定を多様な検索シナリオで大幅に向上させることが示された。 ReCoの利点をさらに解明し、コードスタイルの正規化の研究を促進するために、コード内のスタイリスティックな類似性を定量化するための最初の指標であるCode Style similarityを紹介します。特に,我々の経験的発見は,スタイル的ニュアンスを捉える上で,既存の指標が不十分であることを明らかにする。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Retrieval-Augmented Code Review Comment Generation [0.0]
コードレビューコメントの自動生成(RCG)は、コード変更に対する自然言語フィードバックを自動生成することで開発者を支援することを目的としている。既存のアプローチは主にジェネレーションベース、事前訓練された言語モデル、情報検索ベース(IR)のいずれかであり、同様の過去の例からのコメントを再利用している。本研究は,事前学習した言語モデルを検索したコードレビュー例に条件付けすることで,RCGの検索拡張生成(RAG)を活用することを提案する。
論文参考訳（メタデータ） (2025-06-13T08:58:20Z)
MGS3: A Multi-Granularity Self-Supervised Code Search Framework [22.214324677526132]
マルチグラニュラリティ自己監督型コントラスト学習コード検索フレームワーク(MGS$3$)について紹介する。まず、MGS$3$ は Supervised Multi-Granularity Representation Module (HMGR) を特徴としている。様々な粒度のコード検索ベンチマーク実験を行い、複数の粒度のコード検索タスクにおいて優れた性能を示すことを示す。
論文参考訳（メタデータ） (2025-05-30T06:49:39Z)
Code-Craft: Hierarchical Graph-Based Code Summarization for Enhanced Context Retrieval [0.0]
本稿では,階層型コードグラフ要約(HCGS)を提案する。これは,コードグラフからボトムアップ形式で構造化された要約を生成することによって,aの多層表現を構築する新しいアプローチである。 HCGSは、従来のコードのみの検索をすべてのメトリクスで一貫して上回っている。
論文参考訳（メタデータ） (2025-04-11T20:57:27Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
CodeRefine: A Pipeline for Enhancing LLM-Generated Code Implementations of Research Papers [0.0]
CodeRefineは、研究論文の方法論を大規模言語モデルを用いて機能コードに変換するためのフレームワークである。我々の多段階アプローチはまず、論文からキーテキストチャンクを抽出して要約し、それらのコード関連性を分析し、知識グラフを作成する。その後、この構造化表現からコードが生成され、提案されたリフレクション検索拡張生成アプローチによって拡張される。
論文参考訳（メタデータ） (2024-08-23T20:51:04Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。 CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文参考訳（メタデータ） (2022-12-20T23:49:37Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
deGraphCS: Embedding Variable-based Flow Graph for Neural Code Search [15.19181807445119]
ソースコードを変数ベースのフローグラフに変換する学習可能なDeGraph for Code Search(deGraphCSと呼ばれる)を提案する。 C言語で記述された41,152のコードスニペットを含む大規模なデータセットをGitHubから収集しています。
論文参考訳（メタデータ） (2021-03-24T06:57:44Z)
Neural Code Search Revisited: Enhancing Code Snippet Retrieval through Natural Language Intent [1.1168121941015012]
コードスニペットの意図をよりよく把握するために,記述を活用することで,コード検索システムを改善する方法について検討する。翻訳学習と自然言語処理の最近の進歩に基づき,自然言語記述を付加したコードに対するドメイン固有検索モデルを構築した。
論文参考訳（メタデータ） (2020-08-27T15:39:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。