Fugu-MT 論文翻訳(概要): Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores

論文の概要: Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores

arxiv url: http://arxiv.org/abs/2404.19318v2
Date: Tue, 03 Dec 2024 23:53:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.246448
Title: Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores
Title（参考訳）: 校正信頼スコアを用いたLCM生成コードサプライヤーの信頼度向上
Authors: Yuvraj Virk, Premkumar Devanbu, Toufique Ahmed,
Abstract要約: 優れた要約は、しばしばプログラムの理解において非常に有用である。多くの場合、ソフトウェアプロジェクトでは優れた要約が利用できないため、メンテナンスがより困難になる。我々は,Large Language Model (LLMs) を用いたAIベースの手法が,人間が生成したであろう要約にどのように似ているかを検討する。
参考スコア（独自算出の注目度）: 4.4378250612684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A good summary can often be very useful during program comprehension. While a brief, fluent, and relevant summary can be helpful, it does require significant human effort to produce. Often, good summaries are unavailable in software projects, thus making maintenance more difficult. There has been a considerable body of research into automated AI-based methods, using Large Language models (LLMs), to generate summaries of code; there also has been quite a bit work on ways to measure the performance of such summarization methods, with special attention paid to how closely these AI-generated summaries resemble a summary a human might have produced. Measures such as BERTScore and BLEU have been suggested and evaluated with human-subject studies. However, LLM-produced summaries can be too long, irrelevant, etc: generally, too dissimilar to what a human might say. Given an LLM-produced code summary, how can we judge if a summary is good enough? Given some input source code, and an LLM-generated summary, existing approaches can help judge brevity, fluency and relevance; however, it's difficult to gauge whether an LLM-produced summary sufficiently resembles what a human might produce, without a "golden" human-produced summary to compare against. We study this resemblance question as a calibration problem: given just the summary from an LLM, can we compute a confidence measure, that provides a reliable indication of whether the summary sufficiently resembles what a human would have produced in this situation? We examine this question using several LLMs, for several languages, and in several different settings. Our investigation suggests approaches to provide reliable predictions of the likelihood that an LLM-generated summary would sufficiently resemble a summary a human might write for the same code.
Abstract（参考訳）: 優れた要約は、しばしばプログラムの理解において非常に有用である。簡潔で、流動的で、関連する要約は役に立つが、生産にはかなりの人的努力が必要である。多くの場合、ソフトウェアプロジェクトでは優れた要約が利用できないため、メンテナンスがより困難になる。コードの要約を生成するためにLarge Language Model(LLMs)を使用する自動AIベースの手法について、かなりの研究が続けられている。 BERTScore(英語版)やBLEU(英語版)などの対策が提案され、人体実験で評価されている。しかし、LLMが生成した要約は長すぎる、無関係である、など、一般的には、人間が言うようなものとは相容れない。 LLMが生成したコード要約を考えると、要約が十分であるかどうかをどうやって判断できますか? 一部の入力ソースコードとLLM生成要約が与えられた場合、既存のアプローチは、簡潔さ、流布度、関連性を判断するのに役立つが、LLM生成要約が人間に十分似ているかどうかを判断することは困難である。我々は、この類似問題を校正問題として研究し、LCMの要約だけを考慮すれば、その要約が、この状況で人間が作り出したものと十分に類似しているかどうかの信頼性を示す信頼度尺度を計算できますか? いくつかのLLM、複数の言語、いくつかの異なる設定でこの問題について検討する。我々の研究は、LLM生成の要約が、人間が同じコードのために書くであろう要約と十分に類似している可能性の信頼性の高い予測を提供するためのアプローチを提案する。

関連論文リスト

Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。 LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。 CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文参考訳（メタデータ） (2024-12-02T09:56:18Z)
Can LLMs Replace Manual Annotation of Software Engineering Artifacts? [24.563167762241346]
大規模言語モデル(LLM)は、最近、いくつかの領域で人間レベルのパフォーマンスを実証し始めた。本稿では、コードやコード関連アーティファクトの評価において、より安価なLCMクエリーでコストのかかる被験者を代用する可能性について検討する。以上の結果から,LLMを人体アノテーションに置き換えることで,人体・人体・人体間の合意に等しいあるいは近い契約が成立する可能性が示唆された。
論文参考訳（メタデータ） (2024-08-10T12:30:01Z)
Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文参考訳（メタデータ） (2024-05-30T03:00:47Z)
AugSumm: towards generalizable speech summarization using synthetic labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。 AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文参考訳（メタデータ） (2024-01-10T18:39:46Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis [18.775126929754833]
Thematic Analysis (TA)は、多くの分野や分野における定性的データを解析するために広く使われている。ヒューマンコーダはデータの解釈とコーディングを複数のイテレーションで開発し、より深くする。 In-context Learning (ICL) を用いたTAを実現するための人間-LLM協調フレームワーク(LLM-in-the-loop)を提案する。
論文参考訳（メタデータ） (2023-10-23T17:05:59Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。 GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文参考訳（メタデータ） (2023-10-01T20:46:44Z)
Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文参考訳（メタデータ） (2023-09-18T08:13:01Z)
Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks [12.723777984461693]
大型言語モデル(LLM)は注目すべきデータアノテータである。クラウドソーシングは、人間のアノテーションを得るための重要で安価な方法であり、それ自体はLLMの影響を受けているかもしれない。作業完了時には,33～46%がLLMを使用していた。
論文参考訳（メタデータ） (2023-06-13T16:46:24Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。