Fugu-MT 論文翻訳(概要): EVOR: Evolving Retrieval for Code Generation

論文の概要: EVOR: Evolving Retrieval for Code Generation

arxiv url: http://arxiv.org/abs/2402.12317v2
Date: Tue, 03 Dec 2024 15:56:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:20.447105
Title: EVOR: Evolving Retrieval for Code Generation
Title（参考訳）: EVOR: コード生成のための検索を進化させる
Authors: Hongjin Su, Shuyang Jiang, Yuhang Lai, Haoyuan Wu, Boao Shi, Che Liu, Qian Liu, Tao Yu,
Abstract要約: 検索拡張コード生成のための既存のパイプラインは、単一のソースを持つ静的ナレッジベースを使用している。我々は,クエリと多様な知識ベースを同期的に進化させる新しいパイプラインEVORを開発した。
参考スコア（独自算出の注目度）: 17.46870626157077
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently the retrieval-augmented generation (RAG) has been successfully applied in code generation. However, existing pipelines for retrieval-augmented code generation (RACG) employ static knowledge bases with a single source, limiting the adaptation capabilities of Large Language Models (LLMs) to domains they have insufficient knowledge of. In this work, we develop a novel pipeline, EVOR, that employs the synchronous evolution of both queries and diverse knowledge bases. On two realistic settings where the external knowledge is required to solve code generation tasks, we compile four new datasets associated with frequently updated libraries and long-tail programming languages, named EVOR-BENCH. Extensive experiments demonstrate that EVOR achieves two to four times of execution accuracy compared to other methods such as Reflexion (Shinn et al., 2024), DocPrompting (Zhou et al., 2023), etc. We demonstrate that EVOR is flexible and can be easily combined with them to achieve further improvement. Further analysis reveals that EVOR benefits from the synchronous evolution of queries and documents and the diverse information sources in the knowledge base. We hope that our studies will inspire more insights into the design of advanced RACG pipelines in future research. Our model, code, and data are available at https://arks-codegen.github.io.
Abstract（参考訳）: 近年、コード生成にRAG(Research-augmented Generation)が適用されている。しかし、検索拡張コード生成(RACG)のための既存のパイプラインでは、単一のソースを持つ静的な知識ベースを採用しており、Large Language Models(LLM)の適応能力を、知識不足のドメインに制限している。本研究では,クエリと多様な知識ベースを同期的に進化させる新しいパイプラインEVORを開発する。コード生成タスクを解くために外部知識を必要とする2つの現実的な環境で、頻繁に更新されるライブラリと長い尾のプログラミング言語に関連する4つの新しいデータセット、EVOR-BENCHをコンパイルする。 EVORはReflexion (Shinn et al , 2024), DocPrompting (Zhou et al , 2023) などの他の手法と比較して2～4回の実行精度が達成されている。 EVORは柔軟で,それらと簡単に組み合わせて,さらなる改善を実現することが可能であることを実証する。さらに分析したところ、EVORはクエリとドキュメントの同期的進化と知識ベースにおける多様な情報ソースから恩恵を受けていることがわかった。今後の研究で、先進的なRACGパイプラインの設計についてより多くの洞察を得られることを期待しています。私たちのモデル、コード、データはhttps://arks-codegen.github.io.comで公開されています。

関連論文リスト

GenKI: Enhancing Open-Domain Question Answering with Knowledge Integration and Controllable Generation in Large Language Models [75.25348392263676]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T08:18:33Z)
What to Retrieve for Effective Retrieval-Augmented Code Generation? An Empirical Study and Beyond [32.467437657603604]
リポジトリレベルのコード生成は、複雑なコード依存と長いコンテキストの処理における大きな言語モデル(LLM)の制限のため、依然として困難である。ユーザクエリを実装ステップに分解し,セマンティックな記述マッチングを通じてAPIを検索する,チェーン・オブ・シントを利用した新しいコンテキスト統合手法であるAllianceCoderを提案する。 CoderEvalとRepoExecに関する広範な実験を通じて、AllianceCoderは最先端のパフォーマンスを実現し、Pass@1を既存のアプローチよりも最大20%改善した。
論文参考訳（メタデータ） (2025-03-26T14:41:38Z)
CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale [39.54772602678732]
本稿では,古いコードパターンを識別するデータエンジンであるCODESYNCを紹介する。 CODESYNCをベースとしたCODESYNCBENCHは,CODESYNCBENCH(CODESYNCBENCH)という,大規模言語モデルのコード進化と同期する能力を評価するベンチマークである。
論文参考訳（メタデータ） (2025-02-23T16:46:18Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。 RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文参考訳（メタデータ） (2024-10-21T12:21:49Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
SelfEvolve: A Code Evolution Framework via Large Language Models [5.6607714367826105]
大きな言語モデル(LLM)は、公開コードデータで事前訓練された後、コード生成に革命をもたらした。本稿では,LLMを知識提供者と自己表現型プログラマの両方として活用する,autoknowと呼ばれる新しい2段階パイプラインを提案する。データサイエンスコードのDS-1000、ソフトウェアエンジニアリングコードのHumanEval、C++からPythonへの翻訳のためのTransCoderの3つの自動知識生成データセットを評価した。
論文参考訳（メタデータ） (2023-06-05T14:12:46Z)
Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。 Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文参考訳（メタデータ） (2023-05-24T16:17:36Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)
Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文参考訳（メタデータ） (2023-05-11T17:13:40Z)
REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models [11.78036105494679]
本稿では,Large Language Models (LLMs) の性能を向上させる新しいコード・ツー・コード検索手法を提案する。本稿では,学習中の動的情報を検索対象のコーパスや,推論時に検索クエリを実行することなく符号化するコード検索手法を提案する。
論文参考訳（メタデータ） (2023-05-05T20:46:56Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。