論文の概要: APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large
Language Models for Augmenting API Documentation
- arxiv url: http://arxiv.org/abs/2312.10934v2
- Date: Wed, 10 Jan 2024 11:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 16:43:58.790856
- Title: APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large
Language Models for Augmenting API Documentation
- Title(参考訳): apidocbooster: 大きな言語モデルを利用してapiドキュメントを補完するextract-then-abstractフレームワーク
- Authors: Chengran Yang, Jiakun Liu, Bowen Xu, Christoph Treude, Yunbo Lyu,
Junda He, Ming Li, David Lo
- Abstract要約: APIDocBoosterは、抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点を融合させる。
APIDocBoosterは2つのステージで構成されている。 textbfSentence textbfSection textbfClassification (CSSC) と textbfUPdate textbfSUMmarization (UPSUM) である。
- 参考スコア(独自算出の注目度): 21.417218830976488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: API documentation is often the most trusted resource for programming. Many
approaches have been proposed to augment API documentation by summarizing
complementary information from external resources such as Stack Overflow.
Existing extractive-based summarization approaches excel in producing faithful
summaries that accurately represent the source content without input length
restrictions. Nevertheless, they suffer from inherent readability limitations.
On the other hand, our empirical study on the abstractive-based summarization
method, i.e., GPT-4, reveals that GPT-4 can generate coherent and concise
summaries but presents limitations in terms of informativeness and
faithfulness.
We introduce APIDocBooster, an extract-then-abstract framework that
seamlessly fuses the advantages of both extractive (i.e., enabling faithful
summaries without length limitation) and abstractive summarization (i.e.,
producing coherent and concise summaries). APIDocBooster consists of two
stages: (1) \textbf{C}ontext-aware \textbf{S}entence \textbf{S}ection
\textbf{C}lassification (CSSC) and (2) \textbf{UP}date \textbf{SUM}marization
(UPSUM). CSSC classifies API-relevant information collected from multiple
sources into API documentation sections. UPSUM first generates extractive
summaries distinct from the original API documentation and then generates
abstractive summaries guided by extractive summaries through in-context
learning.
To enable automatic evaluation of APIDocBooster, we construct the first
dataset for API document augmentation. Our automatic evaluation results reveal
that each stage in APIDocBooster outperforms its baselines by a large margin.
Our human evaluation also demonstrates the superiority of APIDocBooster over
GPT-4 and shows that it improves informativeness, relevance, and faithfulness
by 13.89\%, 15.15\%, and 30.56\%, respectively.
- Abstract(参考訳): APIドキュメントは、しばしばプログラミングの最も信頼できるリソースです。
Stack Overflowのような外部リソースから補完的な情報を要約することで、APIドキュメントの強化に多くのアプローチが提案されている。
既存の抽出に基づく要約手法は、入力長制限なしにソースコンテンツを正確に表現する忠実な要約を生成するのに優れている。
それにもかかわらず、それらは固有の可読性制限に苦しむ。
一方,抽象的要約法であるGPT-4に関する実証研究により,GPT-4はコヒーレントで簡潔な要約を生成できるが,情報性や忠実性の観点から制限を呈することが明らかとなった。
APIDocBoosterは,抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点をシームレスに融合する,抽出-主題抽出フレームワークである。
APIDocBoosterは、(1) \textbf{C}ontext-aware \textbf{S}entence \textbf{S}ection \textbf{C}lassification (CSSC)と(2) \textbf{UP}date \textbf{SUM}marization (UPSUM)の2つのステージで構成される。
CSSCは複数のソースから収集されたAPI関連情報をAPIドキュメントセクションに分類する。
UPSUMはまず、元のAPIドキュメントとは異なる抽出要約を生成し、その後、テキスト内学習を通じて抽出要約によってガイドされた抽象要約を生成する。
APIDocBoosterの自動評価を可能にするため,APIドキュメント拡張のための最初のデータセットを構築した。
自動評価の結果、APIDocBoosterの各ステージはベースラインよりも大きなマージンで優れています。
また, GPT-4 よりも APIDocBooster の方が優れており, それぞれ 13.89 %, 15.15 %, 30.56 % に情報伝達性, 関連性, 忠実性が向上していることを示す。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - ABEX: Data Augmentation for Low-Resource NLU via Expanding Abstract Descriptions [44.938469262938725]
ABEXは自然言語理解(NLU)タスクのための生成データ拡張手法である。
まず、文書を簡潔で抽象的な記述に変換し、その結果の抽象化を拡張して新しい文書を生成する。
12のデータセットと4つの低リソース設定にまたがる4つのNLUタスクに対するABEXの有効性を示す。
論文 参考訳(メタデータ) (2024-06-06T17:29:57Z) - Source Identification in Abstractive Summarization [0.8883733362171033]
生成された要約文に必須情報を含む入力文を$textitsource文として定義し、ソース文を解析して抽象的な要約がどのように作られるかを研究する。
我々は,複数の手法を比較し,タスクの強いベースラインを確立するために,自動ソース文検出を定式化する。
実験結果から, パープレキシティに基づく手法は, 比較的抽象的条件下では良好に動作し, 類似性に基づく手法は比較的抽出的条件下では頑健であることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:09:09Z) - APIGen: Generative API Method Recommendation [16.541442856821]
APIGenは、拡張インコンテキスト学習(ICL)によるジェネレーティブAPIレコメンデーションアプローチである
APIGenは、語彙、構文、意味の観点から、プログラミングクエリに類似したポストを検索する。
推論プロセスにより、APIGenはクエリのプログラミング要件を満たすための推奨APIを提供する。
論文 参考訳(メタデータ) (2024-01-29T02:35:42Z) - Leveraging Deep Learning for Abstractive Code Summarization of
Unofficial Documentation [1.1816942730023887]
本稿では,StackOverflowで議論されているAPIの要約を生成するために,BARTアルゴリズムを用いた自動アプローチを提案する。
ROUGEとBLEUのメトリクスを用いて,人間生成サマリーのオラクルを構築し,それに対するアプローチを評価した。
その結果, ディープラーニングアルゴリズムを用いることで, 要約の質が向上し, 精度が平均で57パーセント向上することが示唆された。
論文 参考訳(メタデータ) (2023-10-23T15:10:37Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Reinforcing Semantic-Symmetry for Document Summarization [15.113768658584979]
文書要約は、長い文書を詳細な情報と正確な意味記述を備えた短いバージョンに凝縮する。
本稿では,文書要約のための新しいtextbfreinforcing stextbfemantic-textbfsymmetric Learning textbfmodelを提案する。
CNN/Daily MailとBigPatentの2つの大胆なベンチマークデータセットに対して、一連の実験が行われた。
論文 参考訳(メタデータ) (2021-12-14T17:41:37Z) - Eider: Evidence-enhanced Document-level Relation Extraction [56.71004595444816]
文書レベルの関係抽出(DocRE)は、文書内のエンティティペア間の意味関係を抽出することを目的としている。
本稿では,共同関係と証拠抽出,エビデンス中心関係抽出(RE),抽出結果の融合からなる3段階のエビデンス強化DocREフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-16T09:43:16Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - At Which Level Should We Extract? An Empirical Analysis on Extractive
Document Summarization [110.54963847339775]
本研究は,全文を抽出する際,不必要な問題や冗長性が存在することを示す。
選挙区解析木に基づくサブセグメント単位の抽出を提案する。
論文 参考訳(メタデータ) (2020-04-06T13:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。