論文の概要: SACL: Understanding and Combating Textual Bias in Code Retrieval with Semantic-Augmented Reranking and Localization
- arxiv url: http://arxiv.org/abs/2506.20081v1
- Date: Wed, 25 Jun 2025 01:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.57761
- Title: SACL: Understanding and Combating Textual Bias in Code Retrieval with Semantic-Augmented Reranking and Localization
- Title(参考訳): SACL:Semantic-Augmented Re rank and Localizationを用いたコード検索におけるテキストバイアスの理解と圧縮
- Authors: Dhruv Gupta, Gayathri Ganesh Lakshmy, Yiqing Xie,
- Abstract要約: Retrieval-Augmented Code Generation (RACG)は、関連情報を検索することでコード生成を向上させる重要な技術である。
本研究では,コード機能を維持しながら,特定の特徴を体系的にマスキングすることで,コード検索の詳細な分析を行う。
テキスト情報を強化し,コードや構造的知識を意味情報で強化することでバイアスを低減するフレームワークであるSACLを提案する。
- 参考スコア(独自算出の注目度): 7.4705664339075115
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-Augmented Code Generation (RACG) is a critical technique for enhancing code generation by retrieving relevant information. In this work, we conduct an in-depth analysis of code retrieval by systematically masking specific features while preserving code functionality. Our discoveries include: (1) although trained on code, current retrievers heavily rely on surface-level textual features (e.g., docstrings, identifier names), and (2) they exhibit a strong bias towards well-documented code, even if the documentation is irrelevant.Based on our discoveries, we propose SACL, a framework that enriches textual information and reduces bias by augmenting code or structural knowledge with semantic information. Extensive experiments show that SACL substantially improves code retrieval (e.g., by 12.8% / 9.4% / 7.0% Recall@1 on HumanEval / MBPP / SWE-Bench-Lite), which also leads to better code generation performance (e.g., by 4.88% Pass@1 on HumanEval).
- Abstract(参考訳): Retrieval-Augmented Code Generation (RACG)は、関連情報を検索することでコード生成を向上させる重要な技術である。
本研究では,コード機能を維持しながら,特定の特徴を体系的にマスキングすることで,コード検索の詳細な分析を行う。
筆者らの発見は,(1) コードに基づいて訓練されているものの,現在の検索者は表層テキストの特徴(例,文書,識別子名)に強く依存しており,(2) ドキュメントが無関係であっても,十分に文書化されたコードに対する強いバイアスを示す。
大規模な実験の結果、SACLはコード検索を大幅に改善し(例: 12.8% / 9.4% / 7.0% Recall@1 on HumanEval / MBPP / SWE-Bench-Lite)、コード生成性能も向上した(例:4.88% Pass@1 on HumanEval)。
関連論文リスト
- Code-Craft: Hierarchical Graph-Based Code Summarization for Enhanced Context Retrieval [0.0]
本稿では,階層型コードグラフ要約(HCGS)を提案する。これは,コードグラフからボトムアップ形式で構造化された要約を生成することによって,aの多層表現を構築する新しいアプローチである。
HCGSは、従来のコードのみの検索をすべてのメトリクスで一貫して上回っている。
論文 参考訳(メタデータ) (2025-04-11T20:57:27Z) - What to Retrieve for Effective Retrieval-Augmented Code Generation? An Empirical Study and Beyond [32.467437657603604]
リポジトリレベルのコード生成は、複雑なコード依存と長いコンテキストの処理における大きな言語モデル(LLM)の制限のため、依然として困難である。
ユーザクエリを実装ステップに分解し,セマンティックな記述マッチングを通じてAPIを検索する,チェーン・オブ・シントを利用した新しいコンテキスト統合手法であるAllianceCoderを提案する。
CoderEvalとRepoExecに関する広範な実験を通じて、AllianceCoderは最先端のパフォーマンスを実現し、Pass@1を既存のアプローチよりも最大20%改善した。
論文 参考訳(メタデータ) (2025-03-26T14:41:38Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - EVOR: Evolving Retrieval for Code Generation [17.46870626157077]
検索拡張コード生成のための既存のパイプラインは、単一のソースを持つ静的ナレッジベースを使用している。
我々は,クエリと多様な知識ベースを同期的に進化させる新しいパイプラインEVORを開発した。
論文 参考訳(メタデータ) (2024-02-19T17:37:28Z) - Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search [7.822427053078387]
Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。
本稿では、forスタイルの正規化内でコード(ReCo)を書き換える、シンプルで効果的な方法を提案する。
コードスタイル類似度(Code Style similarity)は、コード内のスタイリスティック類似度を定量化するための最初のメートル法である。
論文 参考訳(メタデータ) (2024-01-09T12:12:50Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。