論文の概要: When Retriever Meets Generator: A Joint Model for Code Comment Generation
- arxiv url: http://arxiv.org/abs/2507.12558v2
- Date: Thu, 24 Jul 2025 07:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.824466
- Title: When Retriever Meets Generator: A Joint Model for Code Comment Generation
- Title(参考訳): RetrieverがGeneratorに出会ったとき: コードコメント生成のためのジョイントモデル
- Authors: Tien P. T. Le, Anh M. T. Bui, Huy N. D. Pham, Alessio Bucaioni, Phuong T. Nguyen,
- Abstract要約: RAGSumは、単一のCodeT5バックボーンを使用して、ヒューズ検索と生成の上に構築されている。
対照的な事前学習フェーズは、最寄りの探索のためのコード埋め込みを形作る。
最終出力を研磨するために、軽量な自己精製ループが配置される。
- 参考スコア(独自算出の注目度): 3.6781644685120924
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatically generating concise, informative comments for source code can lighten documentation effort and accelerate program comprehension. Retrieval-augmented approaches first fetch code snippets with existing comments and then synthesize a new comment, yet retrieval and generation are typically optimized in isolation, allowing irrelevant neighbors topropagate noise downstream. To tackle the issue, we propose a novel approach named RAGSum with the aim of both effectiveness and efficiency in recommendations. RAGSum is built on top offuse retrieval and generation using a single CodeT5 backbone. We report preliminary results on a unified retrieval-generation framework built on CodeT5. A contrastive pre-training phase shapes code embeddings for nearest-neighbor search; these weights then seed end-to-end training with a composite loss that (i) rewards accurate top-k retrieval; and (ii) minimizes comment-generation error. More importantly, a lightweight self-refinement loop is deployed to polish the final output. We evaluated theframework on three cross-language benchmarks (Java, Python, C), and compared it with three well-established baselines. The results show that our approach substantially outperforms thebaselines with respect to BLEU, METEOR, and ROUTE-L. These findings indicate that tightly coupling retrieval and generationcan raise the ceiling for comment automation and motivateforthcoming replications and qualitative developer studies.
- Abstract(参考訳): ソースコードに対する簡潔で情報的なコメントを自動的に生成することで、ドキュメントの取り組みが軽くなり、プログラムの理解が加速する。
Retrieval-augmentedアプローチは、まず既存のコメントでコードスニペットをフェッチし、次に新しいコメントを合成する。
この問題に対処するため,提案手法は,レコメンデーションの有効性と効率性の両方を目的とし,RAGSumという新しいアプローチを提案する。
RAGSumは、単一のCodeT5バックボーンを使用して、ヒューズ検索と生成の上に構築されている。
CodeT5上に構築された統合検索生成フレームワークの予備結果について報告する。
差分学習前位相は近傍探索のためのコード埋め込みを形作るが、これらの重みは複合的損失を伴う終末訓練を施す。
(i)正確なトップk検索の報酬、及び
(ii)コメント生成エラーを最小限にする。
さらに重要なことは、最終的な出力を磨くために軽量な自己補充ループが配置されることです。
3つのクロス言語ベンチマーク(Java、Python、C)でフレームワークを評価し、3つの確立されたベースラインと比較した。
その結果,本手法はBLEU, METEOR, ROUTE-Lに対するベースラインを大幅に上回ることがわかった。
これらの結果から,検索と生成の緊密な結合は,コメントの自動化と,複製と定性的な開発者研究のモチベーションを高めることが示唆された。
関連論文リスト
- Retrieval-Augmented Code Review Comment Generation [0.0]
コードレビューコメントの自動生成(RCG)は、コード変更に対する自然言語フィードバックを自動生成することで開発者を支援することを目的としている。
既存のアプローチは主にジェネレーションベース、事前訓練された言語モデル、情報検索ベース(IR)のいずれかであり、同様の過去の例からのコメントを再利用している。
本研究は,事前学習した言語モデルを検索したコードレビュー例に条件付けすることで,RCGの検索拡張生成(RAG)を活用することを提案する。
論文 参考訳(メタデータ) (2025-06-13T08:58:20Z) - Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - Improving Deep Assertion Generation via Fine-Tuning Retrieval-Augmented Pre-trained Language Models [20.71745514142851]
RetriGenは検索強化されたディープアサーション生成アプローチである。
我々はRetriGenを6つの最先端アプローチに対して評価する実験を行っている。
論文 参考訳(メタデータ) (2025-02-22T04:17:04Z) - Improving Retrieval-Augmented Code Comment Generation by Retrieving for Generation [3.123049150077741]
本稿では,生成者のフィードバックから学習し,生成のための模範を検索するための新しい学習手法を提案する。
検索者が検索したハイスコアな例題とジェネレータが観測した低損失な例題とを合わせることで、検索者は生成したコメントの質を最も良くする例題を検索することができる。
論文 参考訳(メタデータ) (2024-08-07T08:32:55Z) - SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Self-Consistent Decoding for More Factual Open Responses [28.184313177333642]
Sample & Selectは、DoLA、P-CRR、S-CRRのデコーダに対して、30%の相対的なマージンで事実性を向上する。
生成した要約の人間による検証を収集し,本手法の実際的優位性を確認する。
論文 参考訳(メタデータ) (2024-03-01T17:31:09Z) - Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search [7.822427053078387]
Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。
本稿では、forスタイルの正規化内でコード(ReCo)を書き換える、シンプルで効果的な方法を提案する。
コードスタイル類似度(Code Style similarity)は、コード内のスタイリスティック類似度を定量化するための最初のメートル法である。
論文 参考訳(メタデータ) (2024-01-09T12:12:50Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。