論文の概要: Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores
- arxiv url: http://arxiv.org/abs/2404.19318v2
- Date: Tue, 03 Dec 2024 23:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:06:08.104520
- Title: Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores
- Title(参考訳): 校正信頼スコアを用いたLCM生成コードサプライヤーの信頼度向上
- Authors: Yuvraj Virk, Premkumar Devanbu, Toufique Ahmed,
- Abstract要約: 優れた要約は、しばしばプログラムの理解において非常に有用である。
多くの場合、ソフトウェアプロジェクトでは優れた要約が利用できないため、メンテナンスがより困難になる。
我々は,Large Language Model (LLMs) を用いたAIベースの手法が,人間が生成したであろう要約にどのように似ているかを検討する。
- 参考スコア(独自算出の注目度): 4.4378250612684
- License:
- Abstract: A good summary can often be very useful during program comprehension. While a brief, fluent, and relevant summary can be helpful, it does require significant human effort to produce. Often, good summaries are unavailable in software projects, thus making maintenance more difficult. There has been a considerable body of research into automated AI-based methods, using Large Language models (LLMs), to generate summaries of code; there also has been quite a bit work on ways to measure the performance of such summarization methods, with special attention paid to how closely these AI-generated summaries resemble a summary a human might have produced. Measures such as BERTScore and BLEU have been suggested and evaluated with human-subject studies. However, LLM-produced summaries can be too long, irrelevant, etc: generally, too dissimilar to what a human might say. Given an LLM-produced code summary, how can we judge if a summary is good enough? Given some input source code, and an LLM-generated summary, existing approaches can help judge brevity, fluency and relevance; however, it's difficult to gauge whether an LLM-produced summary sufficiently resembles what a human might produce, without a "golden" human-produced summary to compare against. We study this resemblance question as a calibration problem: given just the summary from an LLM, can we compute a confidence measure, that provides a reliable indication of whether the summary sufficiently resembles what a human would have produced in this situation? We examine this question using several LLMs, for several languages, and in several different settings. Our investigation suggests approaches to provide reliable predictions of the likelihood that an LLM-generated summary would sufficiently resemble a summary a human might write for the same code.
- Abstract(参考訳): 優れた要約は、しばしばプログラムの理解において非常に有用である。
簡潔で、流動的で、関連する要約は役に立つが、生産にはかなりの人的努力が必要である。
多くの場合、ソフトウェアプロジェクトでは優れた要約が利用できないため、メンテナンスがより困難になる。
コードの要約を生成するためにLarge Language Model(LLMs)を使用する自動AIベースの手法について、かなりの研究が続けられている。
BERTScore(英語版)やBLEU(英語版)などの対策が提案され、人体実験で評価されている。
しかし、LLMが生成した要約は長すぎる、無関係である、など、一般的には、人間が言うようなものとは相容れない。
LLMが生成したコード要約を考えると、要約が十分であるかどうかをどうやって判断できますか?
一部の入力ソースコードとLLM生成要約が与えられた場合、既存のアプローチは、簡潔さ、流布度、関連性を判断するのに役立つが、LLM生成要約が人間に十分似ているかどうかを判断することは困難である。
我々は、この類似問題を校正問題として研究し、LCMの要約だけを考慮すれば、その要約が、この状況で人間が作り出したものと十分に類似しているかどうかの信頼性を示す信頼度尺度を計算できますか?
いくつかのLLM、複数の言語、いくつかの異なる設定でこの問題について検討する。
我々の研究は、LLM生成の要約が、人間が同じコードのために書くであろう要約と十分に類似している可能性の信頼性の高い予測を提供するためのアプローチを提案する。
関連論文リスト
- Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。
LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。
CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文 参考訳(メタデータ) (2024-12-02T09:56:18Z) - AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis [18.775126929754833]
Thematic Analysis (TA)は、多くの分野や分野における定性的データを解析するために広く使われている。
ヒューマンコーダはデータの解釈とコーディングを複数のイテレーションで開発し、より深くする。
In-context Learning (ICL) を用いたTAを実現するための人間-LLM協調フレームワーク(LLM-in-the-loop)を提案する。
論文 参考訳(メタデータ) (2023-10-23T17:05:59Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use
Large Language Models for Text Production Tasks [12.723777984461693]
大型言語モデル(LLM)は注目すべきデータアノテータである。
クラウドソーシングは、人間のアノテーションを得るための重要で安価な方法であり、それ自体はLLMの影響を受けているかもしれない。
作業完了時には,33~46%がLLMを使用していた。
論文 参考訳(メタデータ) (2023-06-13T16:46:24Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。