論文の概要: Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores
- arxiv url: http://arxiv.org/abs/2404.19318v1
- Date: Tue, 30 Apr 2024 07:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:04:27.122395
- Title: Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores
- Title(参考訳): 校正信頼スコアを用いたLCM生成コードサプライヤーの信頼度向上
- Authors: Yuvraj Virk, Premkumar Devanbu, Toufique Ahmed,
- Abstract要約: ソフトウェアプロジェクトでは優れた要約が利用できないため、メンテナンスがより困難になる。
BERTScore(英語版)やBLEU(英語版)などの対策が提案され、人体実験で評価されている。
LLMが生成したコード要約を考えると、それが人間が生成した要約と十分に類似しているかどうかを判断する方法はあるだろうか?
- 参考スコア(独自算出の注目度): 4.4378250612684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A good summary can often be very useful during program comprehension. While a brief, fluent, and relevant summary can be helpful, it does require significant human effort to produce. Often, good summaries are unavailable in software projects, thus making maintenance more difficult. There has been a considerable body of research into automated AI-based methods, using Large Language models (LLMs), to generate summaries of code; there also has been quite a bit work on ways to measure the performance of such summarization methods, with special attention paid to how closely these AI-generated summaries resemble a summary a human might have produced. Measures such as BERTScore and BLEU have been suggested and evaluated with human-subject studies. However, LLMs often err and generate something quite unlike what a human might say. Given an LLM-produced code summary, is there a way to gauge whether it's likely to be sufficiently similar to a human produced summary, or not? In this paper, we study this question, as a calibration problem: given a summary from an LLM, can we compute a confidence measure, which is a good indication of whether the summary is sufficiently similar to what a human would have produced in this situation? We examine this question using several LLMs, for several languages, and in several different settings. We suggest an approach which provides well-calibrated predictions of likelihood of similarity to human summaries.
- Abstract(参考訳): 優れた要約は、しばしばプログラムの理解において非常に有用である。
簡潔で、流動的で、関連する要約は役に立つが、生産にはかなりの人的努力が必要である。
多くの場合、ソフトウェアプロジェクトでは優れた要約が利用できないため、メンテナンスがより困難になる。
コードの要約を生成するためにLarge Language Model(LLMs)を使用する自動AIベースの手法について、かなりの研究が続けられている。
BERTScore(英語版)やBLEU(英語版)などの対策が提案され、人体実験で評価されている。
しかし、LSMは人間が言うようなものとはかなり異なるものを生成します。
LLMが生成したコード要約を考えると、それが人間が生成した要約と十分に類似しているかどうかを判断する方法はあるだろうか?
本稿では, キャリブレーション問題として, LLM の要約から, 信頼度を計算できるかどうかを考察する。これは, 人間がこの状況で生み出したものと十分に類似しているかどうかを示す良い指標である。
いくつかのLLM、複数の言語、いくつかの異なる設定でこの問題について検討する。
本稿では,ヒトの要約と類似性の可能性について,よく校正された予測を提供するアプローチを提案する。
関連論文リスト
- Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。
LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。
CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文 参考訳(メタデータ) (2024-12-02T09:56:18Z) - AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis [18.775126929754833]
Thematic Analysis (TA)は、多くの分野や分野における定性的データを解析するために広く使われている。
ヒューマンコーダはデータの解釈とコーディングを複数のイテレーションで開発し、より深くする。
In-context Learning (ICL) を用いたTAを実現するための人間-LLM協調フレームワーク(LLM-in-the-loop)を提案する。
論文 参考訳(メタデータ) (2023-10-23T17:05:59Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use
Large Language Models for Text Production Tasks [12.723777984461693]
大型言語モデル(LLM)は注目すべきデータアノテータである。
クラウドソーシングは、人間のアノテーションを得るための重要で安価な方法であり、それ自体はLLMの影響を受けているかもしれない。
作業完了時には,33~46%がLLMを使用していた。
論文 参考訳(メタデータ) (2023-06-13T16:46:24Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。