論文の概要: Context-aware Code Summary Generation
- arxiv url: http://arxiv.org/abs/2408.09006v1
- Date: Fri, 16 Aug 2024 20:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:06:45.888340
- Title: Context-aware Code Summary Generation
- Title(参考訳): コンテキスト対応コード概要生成
- Authors: Chia-Yi Su, Aakash Bansal, Yu Huang, Toby Jia-Jun Li, Collin McMillan,
- Abstract要約: コード要約生成は、ソースコードのセクションの自然言語記述を記述するタスクである。
大規模言語モデル(LLM)や他のAIベースの技術の最近の進歩は、自動コード要約の実現に役立っている。
本稿では,この文脈を最近のLLMに基づくコード要約に含めるためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.83787165247987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code summary generation is the task of writing natural language descriptions of a section of source code. Recent advances in Large Language Models (LLMs) and other AI-based technologies have helped make automatic code summarization a reality. However, the summaries these approaches write tend to focus on a narrow area of code. The results are summaries that explain what that function does internally, but lack a description of why the function exists or its purpose in the broader context of the program. In this paper, we present an approach for including this context in recent LLM-based code summarization. The input to our approach is a Java method and that project in which that method exists. The output is a succinct English description of why the method exists in the project. The core of our approach is a 350m parameter language model we train, which can be run locally to ensure privacy. We train the model in two steps. First we distill knowledge about code summarization from a large model, then we fine-tune the model using data from a study of human programmer who were asked to write code summaries. We find that our approach outperforms GPT-4 on this task.
- Abstract(参考訳): コード要約生成は、ソースコードのセクションの自然言語記述を記述するタスクである。
大規模言語モデル(LLM)や他のAIベースの技術の最近の進歩は、自動コード要約の実現に役立っている。
しかしながら、これらのアプローチが記述する要約は、狭い範囲のコードに集中する傾向があります。
結果は、関数が内部で何をするかを説明する要約であるが、プログラムのより広い文脈において、関数がなぜ存在するか、あるいはその目的を記述していない。
本稿では,この文脈を最近のLLMに基づくコード要約に含めるためのアプローチを提案する。
このアプローチへのインプットは、Javaメソッドと、そのメソッドが存在するプロジェクトです。
アウトプットは、なぜこのメソッドがプロジェクトに存在するのかを簡潔な英語で記述したものである。
このアプローチのコアとなるのは350mのパラメータ言語モデルです。
私たちはそのモデルを2つのステップで訓練する。
まず、大規模なモデルからコード要約に関する知識を抽出し、コード要約を書くよう依頼された人間のプログラマの研究データを用いてモデルを微調整する。
この課題において,本手法はGPT-4より優れていることが判明した。
関連論文リスト
- Towards Summarizing Code Snippets Using Pre-Trained Transformers [20.982048349530483]
この作業では、DLモデルをトレーニングしてコードスニペットを文書化するために必要なすべてのステップを取ります。
我々のモデルは84%の精度でコード要約を識別し、それらを文書化されたコード行にリンクすることができる。
これにより、ドキュメント化されたコードスニペットの大規模なデータセットを構築することが可能になった。
論文 参考訳(メタデータ) (2024-02-01T11:39:19Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - A Comprehensive Review of State-of-The-Art Methods for Java Code
Generation from Natural Language Text [0.0]
本稿では,Javaコード生成タスクにおけるディープラーニングモデルの進化と進展を概観する。
我々は,最も重要な手法に焦点を合わせ,そのメリットと限界,およびコミュニティが使用する目的的機能を示す。
論文 参考訳(メタデータ) (2023-06-10T07:27:51Z) - Automatic Semantic Augmentation of Language Model Prompts (for Code
Summarization) [7.699967852459232]
開発者はコーディングタスクに取り組む際に、意識的に無意識に意味的な事実の集合を念頭に置いている傾向があります。
トランス方式のLLMの強力な多層アーキテクチャは、この単純なレベルの「コード解析」を本質的に行うことができると仮定できるかもしれない。
我々は,LLMのプロンプトを意味的事実で自動的に拡張するかどうかを実際に評価する。
論文 参考訳(メタデータ) (2023-04-13T20:49:35Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Training Data is More Valuable than You Think: A Simple and Effective
Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。
意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。
実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-03-16T17:37:27Z) - Leveraging Unsupervised Learning to Summarize APIs Discussed in Stack
Overflow [1.8047694351309207]
本稿では,Stack Overflowで議論されているAndroid APIメソッドを要約する手法を提案する。
提案手法では,APIメソッドの名称を入力として,そのAPIメソッドに関するStack Overflowの議論に基づいて,自然言語の要約を生成する。
我々は16人のAndroid開発者が自動生成された要約の品質を評価し、それらを公式のAndroidドキュメントと比較する調査を実施した。
論文 参考訳(メタデータ) (2021-11-27T18:49:51Z) - Exploiting Method Names to Improve Code Summarization: A Deliberation
Multi-Task Learning Approach [5.577102440028882]
コード要約のための新しいマルチタスク学習(MTL)アプローチを設計する。
まず,メソッド名の生成と情報性予測のタスクを紹介する。
新たな2パス審議機構をmtlアーキテクチャに組み込んで、より一貫性のある中間状態を生成します。
論文 参考訳(メタデータ) (2021-03-21T17:52:21Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。