Fugu-MT 論文翻訳(概要): Preference-Guided Refactored Tuning for Retrieval Augmented Code Generation

論文の概要: Preference-Guided Refactored Tuning for Retrieval Augmented Code Generation

arxiv url: http://arxiv.org/abs/2409.15895v1
Date: Tue, 24 Sep 2024 09:15:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 08:11:26.895529
Title: Preference-Guided Refactored Tuning for Retrieval Augmented Code Generation
Title（参考訳）: 検索コード生成のための優先ガイド付きリファクタリングチューニング
Authors: Xinyu Gao, Yun Xiong, Deze Wang, Zhenhan Guan, Zejian Shi, Haofen Wang, Shanshan Li,
Abstract要約: 本稿では,効率的なコード生成のための新しいフレームワークであるRRG(Retrieve, Refactor, Generate)を提案する。このフレームワークは、レトリバーとジェネレータの間にコードソースモジュールを導入し、それらをブリッジする。 RRGは、EMでは28%、BLEUでは13%、CodeBLEUでは6.8%に向上した。
参考スコア（独自算出の注目度）: 10.736876118242384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-augmented code generation utilizes Large Language Models as the generator and significantly expands their code generation capabilities by providing relevant code, documentation, and more via the retriever. The current approach suffers from two primary limitations: 1) information redundancy. The indiscriminate inclusion of redundant information can result in resource wastage and may misguide generators, affecting their effectiveness and efficiency. 2) preference gap. Due to different optimization objectives, the retriever strives to procure code with higher ground truth similarity, yet this effort does not substantially benefit the generator. The retriever and the generator may prefer different golden code, and this gap in preference results in a suboptimal design. Additionally, differences in parameterization knowledge acquired during pre-training result in varying preferences among different generators. To address these limitations, in this paper, we propose RRG (Retrieve, Refactor, Generate), a novel framework for effective and efficient code generation. This framework introduces a code refactorer module between the retriever and the generator to bridge them. The refactoring process transforms the raw retrieved code into a more concise, efficient, and model-friendly version. It eliminates redundant information and noise, reducing the input length. Consequently, the generator receives higher-quality context, enabling it to produce more accurate results with lower inference costs. We conducted comprehensive experiments on multiple datasets. In the experiments, we confirmed the existence of a preference gap between the retriever and the generator, and RRG effectively bridges this gap. Specifically, RRG achieved significant performance improvements, with increases of up to 28% on EM, 13% on BLEU, and 6.8% on CodeBLEU.
Abstract（参考訳）: Retrieval-augmented code generationは、Large Language Modelsをジェネレータとして使用し、関連するコードやドキュメントなどを提供することで、コード生成機能を大幅に拡張する。現在のアプローチは2つの主要な制限に悩まされている。 1)情報冗長性。冗長な情報の無差別な取り込みは、資源の浪費を招き、ジェネレータを誤用し、その有効性と効率に影響を与える可能性がある。 2) 嗜好ギャップ。最適化の目的が異なるため、検索者はより基礎的な真実の類似性でコードを取得する努力をしているが、この取り組みはジェネレータに実質的な利益をもたらすものではない。レトリバーとジェネレータは異なる黄金のコードを好む場合があり、この選好の差は準最適設計をもたらす。さらに、事前学習中に得られたパラメータ化知識の違いは、異なるジェネレータ間で異なる嗜好をもたらす。本稿では、これらの制約に対処するため、効率的なコード生成のための新しいフレームワークRRG(Retrieve, Refactor, Generate)を提案する。このフレームワークは、レトリバーとジェネレータの間にコードリファクタリングモジュールを導入し、それらをブリッジする。リファクタリングプロセスは、取得した生のコードを、より簡潔で、効率的で、モデルフレンドリなバージョンに変換する。冗長な情報やノイズを排除し、入力長を短縮する。その結果、ジェネレータは高品質なコンテキストを受信し、推論コストを低くしてより正確な結果が得られる。複数のデータセットについて総合的な実験を行った。実験では,レトリバーとジェネレータの選好ギャップの存在を確認し,RRGはこのギャップを効果的に橋渡しする。特にRRGは、EMでは28%、BLEUでは13%、CodeBLEUでは6.8%に向上した。

関連論文リスト

When Retriever Meets Generator: A Joint Model for Code Comment Generation [3.6781644685120924]
RAGSumは、単一のCodeT5バックボーンを使用して、ヒューズ検索と生成の上に構築されている。対照的な事前学習フェーズは、最寄りの探索のためのコード埋め込みを形作る。最終出力を研磨するために、軽量な自己精製ループが配置される。
論文参考訳（メタデータ） (2025-07-16T18:12:27Z)
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation [23.060355911225923]
リランカは、生成品質と説明可能性を高めるために、検索した文書の精錬において重要な役割を果たす。本稿では,リランカが検索した文書の順序と数の両方を動的に調整する新しいRAGフレームワークであるDynamicRAGを提案する。
論文参考訳（メタデータ） (2025-05-12T05:19:01Z)
NLGR: Utilizing Neighbor Lists for Generative Rerank in Personalized Recommendation Systems [13.848284819312953]
ジェネレーティブリジェネレータの近隣リストモデルは、空間におけるジェネレータのパフォーマンスを改善することを目的としている。本稿では,既存のリストから任意の隣接リストへ柔軟にジャンプ可能な,サンプリングに基づく非自己回帰生成手法を提案する。 NLGRの有効性を実証し,NLGRをMeituanフードデリバリープラットフォームに導入することに成功している。
論文参考訳（メタデータ） (2025-02-10T02:06:17Z)
FunnelRAG: A Coarse-to-Fine Progressive Retrieval Paradigm for RAG [22.4664221738095]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルにおいて一般的である。本稿では,RAGの粒度が粗いプログレッシブ検索パラダイムを提案する。
論文参考訳（メタデータ） (2024-10-14T08:47:21Z)
$\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文参考訳（メタデータ） (2024-09-09T02:07:41Z)
RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。 RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文参考訳（メタデータ） (2024-08-21T07:20:48Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。ジェネレータは、判別器を騙すのに十分な出力を生成する。本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文参考訳（メタデータ） (2023-12-05T09:44:45Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
MGR: Multi-generator Based Rationalization [14.745836934156427]
合理化は、ジェネレータと予測器を使用して、自己説明型NLPモデルを構築することである。本稿では,この2つの問題を同時に解くために,MGRというシンプルで効果的な手法を提案する。 MGRは最先端手法と比較してF1スコアを最大20.9%改善することを示した。
論文参考訳（メタデータ） (2023-05-08T06:36:46Z)
Joint Generator-Ranker Learning for Natural Language Generation [99.16268050116717]
JGRは、ジェネレータとローダを単一のフレームワークに統合する、新しいジョイントトレーニングアルゴリズムである。ジェネレータとランク装置を反復的に更新することにより、JGRは学習を効果的に調和させ、共同で品質を高めることができる。
論文参考訳（メタデータ） (2022-06-28T12:58:30Z)
Highly Parallel Autoregressive Entity Linking with Discriminative Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。我々のモデルは以前の生成法より70倍高速で精度が高い。
論文参考訳（メタデータ） (2021-09-08T17:28:26Z)
Improving GANs for Speech Enhancement [19.836041050328102]
マルチステージエンハンスメントマッピングを行うために,複数のジェネレータをチェーン化することを提案する。提案手法は, 1段SEGANベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2020-01-15T19:57:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。