論文の概要: DeepCodeSeek: Real-Time API Retrieval for Context-Aware Code Generation
- arxiv url: http://arxiv.org/abs/2509.25716v1
- Date: Tue, 30 Sep 2025 03:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.406937
- Title: DeepCodeSeek: Real-Time API Retrieval for Context-Aware Code Generation
- Title(参考訳): DeepCodeSeek: コンテキスト対応コード生成のためのリアルタイムAPI検索
- Authors: Esakkivel Esakkiraja, Denis Akhiyarov, Aditya Shanmugham, Chitra Ganapathy,
- Abstract要約: 現在の検索技術は、標準的なRAGクエリドキュメントアプリケーションに限られている。
本稿では,必要なAPIを予測するためのコードとインデックスを拡張する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current search techniques are limited to standard RAG query-document applications. In this paper, we propose a novel technique to expand the code and index for predicting the required APIs, directly enabling high-quality, end-to-end code generation for auto-completion and agentic AI applications. We address the problem of API leaks in current code-to-code benchmark datasets by introducing a new dataset built from real-world ServiceNow Script Includes that capture the challenge of unclear API usage intent in the code. Our evaluation metrics show that this method achieves 87.86% top-40 retrieval accuracy, allowing the critical context with APIs needed for successful downstream code generation. To enable real-time predictions, we develop a comprehensive post-training pipeline that optimizes a compact 0.6B reranker through synthetic dataset generation, supervised fine-tuning, and reinforcement learning. This approach enables our compact reranker to outperform a much larger 8B model while maintaining 2.5x reduced latency, effectively addressing the nuances of enterprise-specific code without the computational overhead of larger models.
- Abstract(参考訳): 現在の検索技術は、標準的なRAGクエリドキュメントアプリケーションに限られている。
本稿では,自動補完およびエージェントAIアプリケーションにおいて,要求されるAPIを予測するためのコードとインデックスを拡張し,高品質でエンドツーエンドなコード生成を直接実現するための新しい手法を提案する。
私たちは、実際のServiceNow Script Includesから構築された新しいデータセットを導入することで、現在のコード間ベンチマークデータセットにおけるAPIリークの問題に対処します。
評価指標から,この手法は87.86%の検索精度を達成し,ダウンストリームコード生成に必要となるAPIによるクリティカルコンテキストを実現する。
リアルタイムの予測を可能にするために, 合成データセット生成, 教師付き微調整, 強化学習により, コンパクトな 0.6B リランカを最適化する, 総合的な後学習パイプラインを開発した。
このアプローチにより、コンパクトリランカは、2.5倍の遅延時間を維持しながら、はるかに大きな8Bモデルよりも優れ、より大きなモデルの計算オーバーヘッドを伴わずに、企業固有のコードのニュアンスに効果的に対処できる。
関連論文リスト
- What to Retrieve for Effective Retrieval-Augmented Code Generation? An Empirical Study and Beyond [32.467437657603604]
リポジトリレベルのコード生成は、複雑なコード依存と長いコンテキストの処理における大きな言語モデル(LLM)の制限のため、依然として困難である。
ユーザクエリを実装ステップに分解し,セマンティックな記述マッチングを通じてAPIを検索する,チェーン・オブ・シントを利用した新しいコンテキスト統合手法であるAllianceCoderを提案する。
CoderEvalとRepoExecに関する広範な実験を通じて、AllianceCoderは最先端のパフォーマンスを実現し、Pass@1を既存のアプローチよりも最大20%改善した。
論文 参考訳(メタデータ) (2025-03-26T14:41:38Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
実験の結果、ExploreaCoderは、事前のAPI知識に欠けるモデルのパフォーマンスを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models [14.665460257371164]
GitHub CopilotやChatGPTのような大規模言語モデル(LLM)は、コード生成の強力なツールとして登場した。
API指向コード生成におけるLLMの機能を評価するために設計されたフレームワークであるAutoAPIEvalを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:22:09Z) - FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Optimizing Large Language Models for OpenAPI Code Completion [0.0]
本研究では,GitHub CopilotのOpenAPI補完性能を評価する。
MetaのオープンソースモデルであるCode Llamaを利用したタスク固有の最適化セットを提案する。
微調整されたCode Llamaモデルは、GitHub Copilot上で55.2%のピーク精度向上を達成した。
論文 参考訳(メタデータ) (2024-05-24T17:19:03Z) - Are Human Rules Necessary? Generating Reusable APIs with CoT Reasoning and In-Context Learning [14.351476383642016]
そこで我々は,Stack OverflowコードスニペットのAPIzationを自動的に実行する,Code2APIという新しいアプローチを提案する。
Code2APIは、追加のモデルトレーニングや手作業のルールを必要としない。
他の外部ツールに頼ることなく、パーソナルコンピュータに簡単にデプロイできる。
論文 参考訳(メタデータ) (2024-05-06T14:22:17Z) - Octopus: On-device language model for function calling of software APIs [9.78611123915888]
大きな言語モデル(LLM)は、高度なテキスト処理と生成能力のために重要な役割を果たす。
本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T01:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。