論文の概要: Leveraging Deep Learning for Abstractive Code Summarization of
Unofficial Documentation
- arxiv url: http://arxiv.org/abs/2310.15015v4
- Date: Sun, 3 Dec 2023 20:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 21:48:27.164016
- Title: Leveraging Deep Learning for Abstractive Code Summarization of
Unofficial Documentation
- Title(参考訳): 非公式文書の抽象的コード要約のための深層学習の活用
- Authors: AmirHossein Naghshzan, Latifa Guerrouj, Olga Baysal
- Abstract要約: 本稿では,StackOverflowで議論されているAPIの要約を生成するために,BARTアルゴリズムを用いた自動アプローチを提案する。
ROUGEとBLEUのメトリクスを用いて,人間生成サマリーのオラクルを構築し,それに対するアプローチを評価した。
その結果, ディープラーニングアルゴリズムを用いることで, 要約の質が向上し, 精度が平均で57パーセント向上することが示唆された。
- 参考スコア(独自算出の注目度): 1.1816942730023887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Usually, programming languages have official documentation to guide
developers with APIs, methods, and classes. However, researchers identified
insufficient or inadequate documentation examples and flaws with the API's
complex structure as barriers to learning an API. As a result, developers may
consult other sources (StackOverflow, GitHub, etc.) to learn more about an API.
Recent research studies have shown that unofficial documentation is a valuable
source of information for generating code summaries. We, therefore, have been
motivated to leverage such a type of documentation along with deep learning
techniques towards generating high-quality summaries for APIs discussed in
informal documentation. This paper proposes an automatic approach using the
BART algorithm, a state-of-the-art transformer model, to generate summaries for
APIs discussed in StackOverflow. We built an oracle of human-generated
summaries to evaluate our approach against it using ROUGE and BLEU metrics
which are the most widely used evaluation metrics in text summarization.
Furthermore, we evaluated our summaries empirically against a previous work in
terms of quality. Our findings demonstrate that using deep learning algorithms
can improve summaries' quality and outperform the previous work by an average
of %57 for Precision, %66 for Recall, and %61 for F-measure, and it runs 4.4
times faster.
- Abstract(参考訳): 通常、プログラミング言語には、API、メソッド、クラスで開発者をガイドする公式ドキュメントがある。
しかし研究者たちは、APIを学ぶための障壁として、APIの複雑な構造に関する不十分で不十分なドキュメント例と欠陥を特定した。
その結果、開発者はAPIについて詳しく知るために他のソース(StackOverflow、GitHubなど)を参照することができる。
近年の研究では、非公式な文書がコード要約を生成する貴重な情報源であることが示されている。
そこで我々は,このようなドキュメンテーションと深層学習技術を活用して,非公式なドキュメンテーションで議論されたAPIの高品質な要約を生成する動機付けを行った。
本稿では,StackOverflowで議論されているAPIの要約を生成するために,最先端のトランスフォーマーモデルであるBARTアルゴリズムを用いた自動アプローチを提案する。
我々は,テキスト要約において最も広く利用されている評価指標であるROUGEとBLEUを用いて,そのアプローチを評価するために,人為的な要約のオラクルを構築した。
さらに,前回の作業に対して,品質の観点から経験的に要約を評価した。
以上の結果から,深層学習アルゴリズムを用いることで,要約の質が向上し,精度が平均 %57,リコールが %66,f-measure が %61 となり,動作速度が4.4 倍速くなった。
関連論文リスト
- Are Human Rules Necessary? Generating Reusable APIs with CoT Reasoning and In-Context Learning [14.351476383642016]
そこで我々は,Stack OverflowコードスニペットのAPIzationを自動的に実行する,Code2APIという新しいアプローチを提案する。
Code2APIは、追加のモデルトレーニングや手作業のルールを必要としない。
他の外部ツールに頼ることなく、パーソナルコンピュータに簡単にデプロイできる。
論文 参考訳(メタデータ) (2024-05-06T14:22:17Z) - Enhancing API Documentation through BERTopic Modeling and Summarization [0.0]
本稿では、アプリケーションプログラミングインタフェース(API)ドキュメントの解釈の複雑さに焦点を当てる。
公式APIドキュメンテーションは、開発者にとって最も重要な情報ソースであるが、広くなり、ユーザフレンドリ性に欠けることが多い。
我々の新しいアプローチは、トピックモデリングと自然言語処理(NLP)にBERTopicの長所を利用して、APIドキュメントの要約を自動的に生成する。
論文 参考訳(メタデータ) (2023-08-17T15:57:12Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Towards Code Summarization of APIs Based on Unofficial Documentation
Using NLP Techniques [0.0]
場合によっては、公式のドキュメントは必要な情報を得るための効率的な方法ではありません。
NLP技術を用いた非公式なドキュメンテーションを利用して,APIやメソッドの要約を生成する手法を提案する。
論文 参考訳(メタデータ) (2022-08-12T15:07:30Z) - Leveraging Unsupervised Learning to Summarize APIs Discussed in Stack
Overflow [1.8047694351309207]
本稿では,Stack Overflowで議論されているAndroid APIメソッドを要約する手法を提案する。
提案手法では,APIメソッドの名称を入力として,そのAPIメソッドに関するStack Overflowの議論に基づいて,自然言語の要約を生成する。
我々は16人のAndroid開発者が自動生成された要約の品質を評価し、それらを公式のAndroidドキュメントと比較する調査を実施した。
論文 参考訳(メタデータ) (2021-11-27T18:49:51Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Holistic Combination of Structural and Textual Code Information for
Context based API Recommendation [28.74546332681778]
APIRec-CST (API Recommendation by Combining Structure and Textual code information) と呼ばれる新しいAPIレコメンデーション手法を提案する。
APIRec-CSTは、API Graph NetworkとCode Token Networkをベースにしたソースコードのテキスト情報とAPI使用率を組み合わせたディープラーニングモデルである。
我々は,この手法が60.3%,81.5%,87.7%,69.4%の上位5,上位10の精度,MRRを達成し,既存のグラフベースの統計手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T04:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。