論文の概要: Preference-Guided Refactored Tuning for Retrieval Augmented Code Generation
- arxiv url: http://arxiv.org/abs/2409.15895v1
- Date: Tue, 24 Sep 2024 09:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:11:26.895529
- Title: Preference-Guided Refactored Tuning for Retrieval Augmented Code Generation
- Title(参考訳): 検索コード生成のための優先ガイド付きリファクタリングチューニング
- Authors: Xinyu Gao, Yun Xiong, Deze Wang, Zhenhan Guan, Zejian Shi, Haofen Wang, Shanshan Li,
- Abstract要約: 本稿では,効率的なコード生成のための新しいフレームワークであるRRG(Retrieve, Refactor, Generate)を提案する。
このフレームワークは、レトリバーとジェネレータの間にコードソースモジュールを導入し、それらをブリッジする。
RRGは、EMでは28%、BLEUでは13%、CodeBLEUでは6.8%に向上した。
- 参考スコア(独自算出の注目度): 10.736876118242384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented code generation utilizes Large Language Models as the generator and significantly expands their code generation capabilities by providing relevant code, documentation, and more via the retriever. The current approach suffers from two primary limitations: 1) information redundancy. The indiscriminate inclusion of redundant information can result in resource wastage and may misguide generators, affecting their effectiveness and efficiency. 2) preference gap. Due to different optimization objectives, the retriever strives to procure code with higher ground truth similarity, yet this effort does not substantially benefit the generator. The retriever and the generator may prefer different golden code, and this gap in preference results in a suboptimal design. Additionally, differences in parameterization knowledge acquired during pre-training result in varying preferences among different generators. To address these limitations, in this paper, we propose RRG (Retrieve, Refactor, Generate), a novel framework for effective and efficient code generation. This framework introduces a code refactorer module between the retriever and the generator to bridge them. The refactoring process transforms the raw retrieved code into a more concise, efficient, and model-friendly version. It eliminates redundant information and noise, reducing the input length. Consequently, the generator receives higher-quality context, enabling it to produce more accurate results with lower inference costs. We conducted comprehensive experiments on multiple datasets. In the experiments, we confirmed the existence of a preference gap between the retriever and the generator, and RRG effectively bridges this gap. Specifically, RRG achieved significant performance improvements, with increases of up to 28% on EM, 13% on BLEU, and 6.8% on CodeBLEU.
- Abstract(参考訳): Retrieval-augmented code generationは、Large Language Modelsをジェネレータとして使用し、関連するコードやドキュメントなどを提供することで、コード生成機能を大幅に拡張する。
現在のアプローチは2つの主要な制限に悩まされている。
1)情報冗長性。
冗長な情報の無差別な取り込みは、資源の浪費を招き、ジェネレータを誤用し、その有効性と効率に影響を与える可能性がある。
2) 嗜好ギャップ。
最適化の目的が異なるため、検索者はより基礎的な真実の類似性でコードを取得する努力をしているが、この取り組みはジェネレータに実質的な利益をもたらすものではない。
レトリバーとジェネレータは異なる黄金のコードを好む場合があり、この選好の差は準最適設計をもたらす。
さらに、事前学習中に得られたパラメータ化知識の違いは、異なるジェネレータ間で異なる嗜好をもたらす。
本稿では、これらの制約に対処するため、効率的なコード生成のための新しいフレームワークRRG(Retrieve, Refactor, Generate)を提案する。
このフレームワークは、レトリバーとジェネレータの間にコードリファクタリングモジュールを導入し、それらをブリッジする。
リファクタリングプロセスは、取得した生のコードを、より簡潔で、効率的で、モデルフレンドリなバージョンに変換する。
冗長な情報やノイズを排除し、入力長を短縮する。
その結果、ジェネレータは高品質なコンテキストを受信し、推論コストを低くしてより正確な結果が得られる。
複数のデータセットについて総合的な実験を行った。
実験では,レトリバーとジェネレータの選好ギャップの存在を確認し,RRGはこのギャップを効果的に橋渡しする。
特にRRGは、EMでは28%、BLEUでは13%、CodeBLEUでは6.8%に向上した。
関連論文リスト
- FunnelRAG: A Coarse-to-Fine Progressive Retrieval Paradigm for RAG [22.4664221738095]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルにおいて一般的である。
本稿では,RAGの粒度が粗いプログレッシブ検索パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-14T08:47:21Z) - RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - MGR: Multi-generator Based Rationalization [14.745836934156427]
合理化は、ジェネレータと予測器を使用して、自己説明型NLPモデルを構築することである。
本稿では,この2つの問題を同時に解くために,MGRというシンプルで効果的な手法を提案する。
MGRは最先端手法と比較してF1スコアを最大20.9%改善することを示した。
論文 参考訳(メタデータ) (2023-05-08T06:36:46Z) - Joint Generator-Ranker Learning for Natural Language Generation [99.16268050116717]
JGRは、ジェネレータとローダを単一のフレームワークに統合する、新しいジョイントトレーニングアルゴリズムである。
ジェネレータとランク装置を反復的に更新することにより、JGRは学習を効果的に調和させ、共同で品質を高めることができる。
論文 参考訳(メタデータ) (2022-06-28T12:58:30Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - Improving GANs for Speech Enhancement [19.836041050328102]
マルチステージエンハンスメントマッピングを行うために,複数のジェネレータをチェーン化することを提案する。
提案手法は, 1段SEGANベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-01-15T19:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。