Fugu-MT 論文翻訳(概要): ARKS: Active Retrieval in Knowledge Soup for Code Generation

論文の概要: ARKS: Active Retrieval in Knowledge Soup for Code Generation

arxiv url: http://arxiv.org/abs/2402.12317v1
Date: Mon, 19 Feb 2024 17:37:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 15:07:15.750703
Title: ARKS: Active Retrieval in Knowledge Soup for Code Generation
Title（参考訳）: arks: コード生成のための知識スープのアクティブ検索
Authors: Hongjin Su, Shuyang Jiang, Yuhang Lai, Haoyuan Wu, Boao Shi, Che Liu, Qian Liu, Tao Yu
Abstract要約: 本稿では,コードのための大規模言語モデルを一般化するための高度な戦略である,知識検索におけるActive Retrieval(ARKS)を紹介する。我々は、クエリを反復的に洗練し、知識のスープを更新するアクティブな検索戦略を採用している。 ChatGPTとCodeLlamaの実験結果から,LDM上でのARKSの平均実行精度が大幅に向上した。
参考スコア（独自算出の注目度）: 18.22108704150575
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recently the retrieval-augmented generation (RAG) paradigm has raised much attention for its potential in incorporating external knowledge into large language models (LLMs) without further training. While widely explored in natural language applications, its utilization in code generation remains under-explored. In this paper, we introduce Active Retrieval in Knowledge Soup (ARKS), an advanced strategy for generalizing large language models for code. In contrast to relying on a single source, we construct a knowledge soup integrating web search, documentation, execution feedback, and evolved code snippets. We employ an active retrieval strategy that iteratively refines the query and updates the knowledge soup. To assess the performance of ARKS, we compile a new benchmark comprising realistic coding problems associated with frequently updated libraries and long-tail programming languages. Experimental results on ChatGPT and CodeLlama demonstrate a substantial improvement in the average execution accuracy of ARKS on LLMs. The analysis confirms the effectiveness of our proposed knowledge soup and active retrieval strategies, offering rich insights into the construction of effective retrieval-augmented code generation (RACG) pipelines. Our model, code, and data are available at https://arks-codegen.github.io.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)に外部知識を組み込むことで,さらなる学習を行なわずに,検索強化世代(RAG)パラダイムが注目されている。自然言語アプリケーションで広く研究されているが、コード生成におけるその利用は未調査のままである。本稿では,コードに対する大規模言語モデルを一般化するための高度戦略である知識スープ(arks)のアクティブ検索を提案する。単一のソースに依存するのとは対照的に、Web検索、ドキュメント、実行フィードバック、進化したコードスニペットを統合する知識のスープを構築する。我々は,クエリを反復的に洗練し,知識スープを更新するアクティブ検索戦略を採用している。 ARKSの性能を評価するため、頻繁に更新されるライブラリや長い尾のプログラミング言語に関連する現実的なコーディング問題を含む新しいベンチマークをコンパイルする。 ChatGPTとCodeLlamaの実験結果から,LDM上でのARKSの平均実行精度が大幅に向上した。本分析は,提案した知識スープとアクティブ検索戦略の有効性を確認し,効率的な検索拡張コード生成(RACG)パイプラインの構築に関する豊富な知見を提供する。私たちのモデル、コード、データはhttps://arks-codegen.github.ioで利用可能です。

関連論文リスト

What to Retrieve for Effective Retrieval-Augmented Code Generation? An Empirical Study and Beyond [32.467437657603604]
リポジトリレベルのコード生成は、複雑なコード依存と長いコンテキストの処理における大きな言語モデル(LLM)の制限のため、依然として困難である。ユーザクエリを実装ステップに分解し,セマンティックな記述マッチングを通じてAPIを検索する,チェーン・オブ・シントを利用した新しいコンテキスト統合手法であるAllianceCoderを提案する。 CoderEvalとRepoExecに関する広範な実験を通じて、AllianceCoderは最先端のパフォーマンスを実現し、Pass@1を既存のアプローチよりも最大20%改善した。
論文参考訳（メタデータ） (2025-03-26T14:41:38Z)
CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale [39.54772602678732]
本稿では,古いコードパターンを識別するデータエンジンであるCODESYNCを紹介する。 CODESYNCをベースとしたCODESYNCBENCHは,CODESYNCBENCH(CODESYNCBENCH)という,大規模言語モデルのコード進化と同期する能力を評価するベンチマークである。
論文参考訳（メタデータ） (2025-02-23T16:46:18Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。 RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文参考訳（メタデータ） (2024-10-21T12:21:49Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
SelfEvolve: A Code Evolution Framework via Large Language Models [5.6607714367826105]
大きな言語モデル(LLM)は、公開コードデータで事前訓練された後、コード生成に革命をもたらした。本稿では,LLMを知識提供者と自己表現型プログラマの両方として活用する,autoknowと呼ばれる新しい2段階パイプラインを提案する。データサイエンスコードのDS-1000、ソフトウェアエンジニアリングコードのHumanEval、C++からPythonへの翻訳のためのTransCoderの3つの自動知識生成データセットを評価した。
論文参考訳（メタデータ） (2023-06-05T14:12:46Z)
Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。 Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文参考訳（メタデータ） (2023-05-24T16:17:36Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)
Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文参考訳（メタデータ） (2023-05-11T17:13:40Z)
REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models [11.78036105494679]
本稿では,Large Language Models (LLMs) の性能を向上させる新しいコード・ツー・コード検索手法を提案する。本稿では,学習中の動的情報を検索対象のコーパスや,推論時に検索クエリを実行することなく符号化するコード検索手法を提案する。
論文参考訳（メタデータ） (2023-05-05T20:46:56Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。