論文の概要: ARKS: Active Retrieval in Knowledge Soup for Code Generation
- arxiv url: http://arxiv.org/abs/2402.12317v1
- Date: Mon, 19 Feb 2024 17:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:07:15.750703
- Title: ARKS: Active Retrieval in Knowledge Soup for Code Generation
- Title(参考訳): arks: コード生成のための知識スープのアクティブ検索
- Authors: Hongjin Su, Shuyang Jiang, Yuhang Lai, Haoyuan Wu, Boao Shi, Che Liu,
Qian Liu, Tao Yu
- Abstract要約: 本稿では,コードのための大規模言語モデルを一般化するための高度な戦略である,知識検索におけるActive Retrieval(ARKS)を紹介する。
我々は、クエリを反復的に洗練し、知識のスープを更新するアクティブな検索戦略を採用している。
ChatGPTとCodeLlamaの実験結果から,LDM上でのARKSの平均実行精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 18.22108704150575
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently the retrieval-augmented generation (RAG) paradigm has raised much
attention for its potential in incorporating external knowledge into large
language models (LLMs) without further training. While widely explored in
natural language applications, its utilization in code generation remains
under-explored. In this paper, we introduce Active Retrieval in Knowledge Soup
(ARKS), an advanced strategy for generalizing large language models for code.
In contrast to relying on a single source, we construct a knowledge soup
integrating web search, documentation, execution feedback, and evolved code
snippets. We employ an active retrieval strategy that iteratively refines the
query and updates the knowledge soup. To assess the performance of ARKS, we
compile a new benchmark comprising realistic coding problems associated with
frequently updated libraries and long-tail programming languages. Experimental
results on ChatGPT and CodeLlama demonstrate a substantial improvement in the
average execution accuracy of ARKS on LLMs. The analysis confirms the
effectiveness of our proposed knowledge soup and active retrieval strategies,
offering rich insights into the construction of effective retrieval-augmented
code generation (RACG) pipelines. Our model, code, and data are available at
https://arks-codegen.github.io.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)に外部知識を組み込むことで,さらなる学習を行なわずに,検索強化世代(RAG)パラダイムが注目されている。
自然言語アプリケーションで広く研究されているが、コード生成におけるその利用は未調査のままである。
本稿では,コードに対する大規模言語モデルを一般化するための高度戦略である知識スープ(arks)のアクティブ検索を提案する。
単一のソースに依存するのとは対照的に、Web検索、ドキュメント、実行フィードバック、進化したコードスニペットを統合する知識のスープを構築する。
我々は,クエリを反復的に洗練し,知識スープを更新するアクティブ検索戦略を採用している。
ARKSの性能を評価するため、頻繁に更新されるライブラリや長い尾のプログラミング言語に関連する現実的なコーディング問題を含む新しいベンチマークをコンパイルする。
ChatGPTとCodeLlamaの実験結果から,LDM上でのARKSの平均実行精度が大幅に向上した。
本分析は,提案した知識スープとアクティブ検索戦略の有効性を確認し,効率的な検索拡張コード生成(RACG)パイプラインの構築に関する豊富な知見を提供する。
私たちのモデル、コード、データはhttps://arks-codegen.github.ioで利用可能です。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。
RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。
この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-21T12:21:49Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - SelfEvolve: A Code Evolution Framework via Large Language Models [5.6607714367826105]
大きな言語モデル(LLM)は、公開コードデータで事前訓練された後、コード生成に革命をもたらした。
本稿では,LLMを知識提供者と自己表現型プログラマの両方として活用する,autoknowと呼ばれる新しい2段階パイプラインを提案する。
データサイエンスコードのDS-1000、ソフトウェアエンジニアリングコードのHumanEval、C++からPythonへの翻訳のためのTransCoderの3つの自動知識生成データセットを評価した。
論文 参考訳(メタデータ) (2023-06-05T14:12:46Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。
ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。
本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:13:40Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Leveraging Code Generation to Improve Code Retrieval and Summarization
via Dual Learning [18.354352985591305]
コード要約は、ソースコードスニペットが与えられた短い自然言語記述を生成し、コード検索は、自然言語クエリが与えられた関連するソースコードを取得する。
最近の研究は、これらの2つのタスクを組み合わせてパフォーマンスを改善している。
本稿では,新たなコード生成タスクを導入することによって,2つのタスクのエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2020-02-24T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。