論文の概要: PseudoBridge: Pseudo Code as the Bridge for Better Semantic and Logic Alignment in Code Retrieval
- arxiv url: http://arxiv.org/abs/2509.20881v1
- Date: Thu, 25 Sep 2025 08:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.784506
- Title: PseudoBridge: Pseudo Code as the Bridge for Better Semantic and Logic Alignment in Code Retrieval
- Title(参考訳): PseudoBridge: コード検索における意味的・論理的整合性向上のためのブリッジとしてのPseudo Code
- Authors: Yixuan Li, Xinyi Liu, Weidong Yang, Ben Fei, Shuhao Li, Mingjie Zhou, Lipeng Ma,
- Abstract要約: PseudoBridgeは、中間的、半構造化されたモダリティとして擬似コードを導入する、新しいコード検索フレームワークである。
まず,NLクエリと擬似コードとの明示的なアライメントを実現するために,先進的な大規模言語モデル(LLM)を用いる。
第2に、論理不変のコードスタイル拡張戦略を導入し、LLMを用いて、スタイリスティックに多様だが論理的に等価なコード実装を擬似コードで生成する。
- 参考スコア(独自算出の注目度): 33.63492133001251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code search aims to precisely find relevant code snippets that match natural language queries within massive codebases, playing a vital role in software development. Recent advances leverage pre-trained language models (PLMs) to bridge the semantic gap between unstructured natural language (NL) and structured programming languages (PL), yielding significant improvements over traditional information retrieval and early deep learning approaches. However, existing PLM-based methods still encounter key challenges, including a fundamental semantic gap between human intent and machine execution logic, as well as limited robustness to diverse code styles. To address these issues, we propose PseudoBridge, a novel code retrieval framework that introduces pseudo-code as an intermediate, semi-structured modality to better align NL semantics with PL logic. Specifically, PseudoBridge consists of two stages. First, we employ an advanced large language model (LLM) to synthesize pseudo-code, enabling explicit alignment between NL queries and pseudo-code. Second, we introduce a logic-invariant code style augmentation strategy and employ the LLM to generate stylistically diverse yet logically equivalent code implementations with pseudo-code, then align the code snippets of different styles with pseudo-code, enhancing model robustness to code style variation. We build PseudoBridge across 10 different PLMs and evaluate it on 6 mainstream programming languages. Extensive experiments demonstrate that PseudoBridge consistently outperforms baselines, achieving significant gains in retrieval accuracy and generalization, particularly under zero-shot domain transfer scenarios such as Solidity and XLCoST datasets. These results demonstrate the effectiveness of explicit logical alignment via pseudo-code and highlight PseudoBridge's potential as a robust, generalizable solution for code retrieval.
- Abstract(参考訳): コード検索は、巨大なコードベース内で自然言語クエリにマッチする関連コードスニペットを正確に見つけることを目的としており、ソフトウェア開発において重要な役割を果たす。
近年の進歩は、非構造化自然言語(NL)と構造化プログラミング言語(PL)のセマンティックギャップを埋めるために、事前学習言語モデル(PLM)を活用し、従来の情報検索や初期のディープラーニングアプローチよりも大幅に改善されている。
しかしながら、PLMベースの既存のメソッドは、人間の意図とマシン実行ロジックの基本的なセマンティックなギャップや、多様なコードスタイルに対するロバストさなど、重要な課題に直面している。
これらの問題に対処するために,PseudoBridgeを提案する。PseudoBridgeは,PseudoBridgeというコード検索フレームワークで,PseudoBridgeは擬似コードを中間的な半構造化モダリティとして導入し,NLセマンティクスとPLロジックとの整合性を向上する。
具体的には、PseudoBridgeは2つのステージから構成される。
まず,NLクエリと擬似コードとの明示的なアライメントを実現するために,先進的な大規模言語モデル(LLM)を用いる。
第2に、論理不変のコードスタイル拡張戦略を導入し、LLMを用いて、スタイリスティックに多様だが論理的に等価なコード実装を擬似コードで生成し、異なるスタイルのコードスニペットを擬似コードで整列させ、モデルの堅牢性をコードスタイルのバリエーションに拡張する。
PseudoBridgeを10の異なるPLMで構築し、6つの主要なプログラミング言語で評価する。
特にSolidityやXLCoSTデータセットのようなゼロショットドメイン転送シナリオでは、PseudoBridgeはベースラインを一貫して上回り、検索精度と一般化の大幅な向上を実現している。
これらの結果は、擬似コードによる明示的な論理的アライメントの有効性を示し、コード検索の堅牢で一般化可能なソリューションとしてのPseudoBridgeの可能性を強調した。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - From Reasoning to Code: GRPO Optimization for Underrepresented Languages [0.7864304771129751]
本稿では,Qwen 2.5モデルの小型コードバージョンとグループ相対ポリシー最適化を組み合わせた一般化可能なアプローチを提案する。
推論によるフィードバックを直接強化学習ループに統合することにより、論理的に一貫性があり、構文的に正確なコードを生成する。
論文 参考訳(メタデータ) (2025-05-20T11:28:48Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。