論文の概要: LLM Agents Improve Semantic Code Search
- arxiv url: http://arxiv.org/abs/2408.11058v1
- Date: Mon, 5 Aug 2024 00:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-25 14:11:11.642176
- Title: LLM Agents Improve Semantic Code Search
- Title(参考訳): LLMエージェントがセマンティックコード検索を改善した
- Authors: Sarthak Jain, Aditya Dora, Ka Seng Sam, Prabhat Singh,
- Abstract要約: 本稿では、ユーザプロンプトに情報を注入する検索拡張型エージェントのアプローチを提案する。
RAGを利用することで、エージェントはGitHubリポジトリから関連する詳細でユーザクエリを強化し、より情報的でコンテキスト整合性を高めます。
CodeSearchNetデータセットの実験結果は、RepoRiftが既存のメソッドを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 6.047454623201181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code Search is a key task that many programmers often have to perform while developing solutions to problems. Current methodologies suffer from an inability to perform accurately on prompts that contain some ambiguity or ones that require additional context relative to a code-base. We introduce the approach of using Retrieval Augmented Generation (RAG) powered agents to inject information into user prompts allowing for better inputs into embedding models. By utilizing RAG, agents enhance user queries with relevant details from GitHub repositories, making them more informative and contextually aligned. Additionally, we introduce a multi-stream ensemble approach which when paired with agentic workflow can obtain improved retrieval accuracy, which we deploy on application called repo-rift.com. Experimental results on the CodeSearchNet dataset demonstrate that RepoRift significantly outperforms existing methods, achieving an 78.2% success rate at Success@10 and a 34.6% success rate at Success@1. This research presents a substantial advancement in semantic code search, highlighting the potential of agentic LLMs and RAG to enhance code retrieval systems.
- Abstract(参考訳): コード検索は、多くのプログラマが問題に対するソリューションを開発しながら実行しなければならない重要なタスクです。
現在の方法論では、曖昧さを含むプロンプトや、コードベースに対して追加のコンテキストを必要とするプロンプトを正確に実行することができない。
本稿では、ユーザプロンプトに情報を注入し、埋め込みモデルへのより良い入力を可能にするために、RAG(Retrieval Augmented Generation)エージェントを使用する手法を提案する。
RAGを利用することで、エージェントはGitHubリポジトリから関連する詳細でユーザクエリを強化し、より情報的でコンテキスト整合性を高めます。
さらに,エージェントワークフローと組み合わせることで,検索精度の向上を実現し,repo-rift.comというアプリケーションにデプロイするマルチストリームアンサンブル手法を提案する。
CodeSearchNetデータセットの実験結果は、RepoRiftが既存のメソッドを大幅に上回り、Success@10で78.2%、Success@1で34.6%の成功率を達成したことを示している。
本研究は, セマンティックコード検索の大幅な進歩を示し, エージェントLLMとRAGがコード検索システムを強化する可能性を強調した。
関連論文リスト
- AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents [19.439775106707344]
AgentQuestは、ベンチマークとメトリクスがモジュール化され、十分にドキュメント化され使いやすいAPIを通じて容易に利用できるフレームワークである。
課題を解決しながら LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。
一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。
論文 参考訳(メタデータ) (2024-04-09T16:01:24Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - REPOFUSE: Repository-Level Code Completion with Fused Dual Context [11.531678717514724]
本稿では,遅延トレードオフを伴わずにリポジトリレベルのコード補完を向上するための先駆的ソリューションであるREPOFUSEを紹介する。
本稿では、2種類の文脈を制限された大きさのプロンプトに効率的に凝縮する新しいランク・トランケート・ジェネレーション(RTG)手法を提案する。
REPOFUSEは既存のモデルよりも大幅に飛躍し、コード補完の正確な一致(EM)精度が40.90%から59.75%向上し、推論速度が26.8%向上した。
論文 参考訳(メタデータ) (2024-02-22T06:34:50Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。
GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。
本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文 参考訳(メタデータ) (2023-12-15T00:34:52Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。