論文の概要: Improving Retrieval-Augmented Code Comment Generation by Retrieving for Generation
- arxiv url: http://arxiv.org/abs/2408.03623v1
- Date: Wed, 7 Aug 2024 08:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:34:00.735160
- Title: Improving Retrieval-Augmented Code Comment Generation by Retrieving for Generation
- Title(参考訳): 検索のための検索による検索用コードコメント生成の改善
- Authors: Hanzhen Lu, Zhongxin Liu,
- Abstract要約: 本稿では,生成者のフィードバックから学習し,生成のための模範を検索するための新しい学習手法を提案する。
検索者が検索したハイスコアな例題とジェネレータが観測した低損失な例題とを合わせることで、検索者は生成したコメントの質を最も良くする例題を検索することができる。
- 参考スコア(独自算出の注目度): 3.123049150077741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code comment generation aims to generate high-quality comments from source code automatically and has been studied for years. Recent studies proposed to integrate information retrieval techniques with neural generation models to tackle this problem, i.e., Retrieval-Augmented Comment Generation (RACG) approaches, and achieved state-of-the-art results. However, the retrievers in previous work are built independently of their generators. This results in that the retrieved exemplars are not necessarily the most useful ones for generating comments, limiting the performance of existing approaches. To address this limitation, we propose a novel training strategy to enable the retriever to learn from the feedback of the generator and retrieve exemplars for generation. Specifically, during training, we use the retriever to retrieve the top-k exemplars and calculate their retrieval scores, and use the generator to calculate a generation loss for the sample based on each exemplar. By aligning high-score exemplars retrieved by the retriever with low-loss exemplars observed by the generator, the retriever can learn to retrieve exemplars that can best improve the quality of the generated comments. Based on this strategy, we propose a novel RACG approach named JOINTCOM and evaluate it on two real-world datasets, JCSD and PCSD. The experimental results demonstrate that our approach surpasses the state-of-the-art baselines by 7.3% to 30.0% in terms of five metrics on the two datasets. We also conduct a human evaluation to compare JOINTCOM with the best-performing baselines. The results indicate that JOINTCOM outperforms the baselines, producing comments that are more natural, informative, and useful.
- Abstract(参考訳): コードコメント生成は、ソースコードから高品質なコメントを自動的に生成することを目的としており、長年研究されてきた。
近年の研究では、情報検索技術とニューラルジェネレーションモデルを統合することでこの問題に対処し、すなわちRetrieval-Augmented Comment Generation (RACG)アプローチを導入し、最先端の結果を得た。
しかし、以前の作業のレトリバーは、ジェネレータとは独立して構築されている。
その結果、検索された例題は、既存のアプローチのパフォーマンスを制限し、コメントを生成するのに必ずしも最も有用なものではない。
この制限に対処するため,検索者が生成者のフィードバックから学習し,生成のための模範を検索できるように,新たなトレーニング戦略を提案する。
具体的には、学習中は、検索器を用いてトップk例を検索し、検索スコアを算出し、生成器を用いて各例に基づいてサンプルの生成損失を算出する。
検索者が検索したハイスコアな例題とジェネレータが観測した低損失な例題とを合わせることで、検索者は生成したコメントの質を最も良くする例題を検索することができる。
この戦略に基づき、JOINTCOMという新しいRACG手法を提案し、JCSDとPCSDの2つの実世界のデータセット上で評価する。
実験の結果,本手法は2つのデータセットの5つの指標から,最先端のベースラインを7.3%から30.0%超えることがわかった。
また、JOINTCOMと最高のパフォーマンスのベースラインを比較するために、人間による評価も行います。
その結果、JOINTCOMはベースラインを上回り、より自然で、情報的で、有用なコメントを生成します。
関連論文リスト
- BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Benchmarking and Analyzing Generative Data for Visual Recognition [66.55174903469722]
この研究は生成的画像の影響を深く掘り下げ、主に外部データを利用するパラダイムを比較する。
我々は、2548のカテゴリを持つ22のデータセットからなるベンチマークである textbfGenBench を考案し、様々な視覚的認識タスクにまたがる生成データを評価した。
我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束をスポットライトで示している。
論文 参考訳(メタデータ) (2023-07-25T17:59:59Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - AugTriever: Unsupervised Dense Retrieval and Domain Adaptation by Scalable Data Augmentation [44.93777271276723]
擬似クエリドキュメントペアを作成することにより,アノテーションフリーでスケーラブルなトレーニングを可能にする2つのアプローチを提案する。
クエリ抽出方法は、元のドキュメントから有能なスパンを選択して擬似クエリを生成する。
転送クエリ生成方法は、要約などの他のNLPタスクのために訓練された生成モデルを使用して、擬似クエリを生成する。
論文 参考訳(メタデータ) (2022-12-17T10:43:25Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z) - GQE-PRF: Generative Query Expansion with Pseudo-Relevance Feedback [8.142861977776256]
PRFに基づくクエリ拡張にテキスト生成モデルを効果的に統合する新しい手法を提案する。
提案手法では,初期クエリと擬似関連フィードバックの両方を条件としたニューラルテキスト生成モデルを用いて,拡張クエリ項を生成する。
2つのベンチマークデータセットを用いて,情報検索タスクに対するアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2021-08-13T01:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。