論文の概要: ARKS: Active Retrieval in Knowledge Soup for Code Generation
- arxiv url: http://arxiv.org/abs/2402.12317v1
- Date: Mon, 19 Feb 2024 17:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:07:15.750703
- Title: ARKS: Active Retrieval in Knowledge Soup for Code Generation
- Title(参考訳): arks: コード生成のための知識スープのアクティブ検索
- Authors: Hongjin Su, Shuyang Jiang, Yuhang Lai, Haoyuan Wu, Boao Shi, Che Liu,
Qian Liu, Tao Yu
- Abstract要約: 本稿では,コードのための大規模言語モデルを一般化するための高度な戦略である,知識検索におけるActive Retrieval(ARKS)を紹介する。
我々は、クエリを反復的に洗練し、知識のスープを更新するアクティブな検索戦略を採用している。
ChatGPTとCodeLlamaの実験結果から,LDM上でのARKSの平均実行精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 18.22108704150575
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently the retrieval-augmented generation (RAG) paradigm has raised much
attention for its potential in incorporating external knowledge into large
language models (LLMs) without further training. While widely explored in
natural language applications, its utilization in code generation remains
under-explored. In this paper, we introduce Active Retrieval in Knowledge Soup
(ARKS), an advanced strategy for generalizing large language models for code.
In contrast to relying on a single source, we construct a knowledge soup
integrating web search, documentation, execution feedback, and evolved code
snippets. We employ an active retrieval strategy that iteratively refines the
query and updates the knowledge soup. To assess the performance of ARKS, we
compile a new benchmark comprising realistic coding problems associated with
frequently updated libraries and long-tail programming languages. Experimental
results on ChatGPT and CodeLlama demonstrate a substantial improvement in the
average execution accuracy of ARKS on LLMs. The analysis confirms the
effectiveness of our proposed knowledge soup and active retrieval strategies,
offering rich insights into the construction of effective retrieval-augmented
code generation (RACG) pipelines. Our model, code, and data are available at
https://arks-codegen.github.io.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)に外部知識を組み込むことで,さらなる学習を行なわずに,検索強化世代(RAG)パラダイムが注目されている。
自然言語アプリケーションで広く研究されているが、コード生成におけるその利用は未調査のままである。
本稿では,コードに対する大規模言語モデルを一般化するための高度戦略である知識スープ(arks)のアクティブ検索を提案する。
単一のソースに依存するのとは対照的に、Web検索、ドキュメント、実行フィードバック、進化したコードスニペットを統合する知識のスープを構築する。
我々は,クエリを反復的に洗練し,知識スープを更新するアクティブ検索戦略を採用している。
ARKSの性能を評価するため、頻繁に更新されるライブラリや長い尾のプログラミング言語に関連する現実的なコーディング問題を含む新しいベンチマークをコンパイルする。
ChatGPTとCodeLlamaの実験結果から,LDM上でのARKSの平均実行精度が大幅に向上した。
本分析は,提案した知識スープとアクティブ検索戦略の有効性を確認し,効率的な検索拡張コード生成(RACG)パイプラインの構築に関する豊富な知見を提供する。
私たちのモデル、コード、データはhttps://arks-codegen.github.ioで利用可能です。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。
ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。
本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:13:40Z) - REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models [11.78036105494679]
本稿では,Large Language Models (LLMs) の性能を向上させる新しいコード・ツー・コード検索手法を提案する。
本稿では,学習中の動的情報を検索対象のコーパスや,推論時に検索クエリを実行することなく符号化するコード検索手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T20:46:56Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。