Fugu-MT 論文翻訳(概要): Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores

論文の概要: Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores

arxiv url: http://arxiv.org/abs/2404.19318v1
Date: Tue, 30 Apr 2024 07:38:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-01 15:04:27.122395
Title: Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores
Title（参考訳）: 校正信頼スコアを用いたLCM生成コードサプライヤーの信頼度向上
Authors: Yuvraj Virk, Premkumar Devanbu, Toufique Ahmed,
Abstract要約: ソフトウェアプロジェクトでは優れた要約が利用できないため、メンテナンスがより困難になる。 BERTScore(英語版)やBLEU(英語版)などの対策が提案され、人体実験で評価されている。 LLMが生成したコード要約を考えると、それが人間が生成した要約と十分に類似しているかどうかを判断する方法はあるだろうか?
参考スコア（独自算出の注目度）: 4.4378250612684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A good summary can often be very useful during program comprehension. While a brief, fluent, and relevant summary can be helpful, it does require significant human effort to produce. Often, good summaries are unavailable in software projects, thus making maintenance more difficult. There has been a considerable body of research into automated AI-based methods, using Large Language models (LLMs), to generate summaries of code; there also has been quite a bit work on ways to measure the performance of such summarization methods, with special attention paid to how closely these AI-generated summaries resemble a summary a human might have produced. Measures such as BERTScore and BLEU have been suggested and evaluated with human-subject studies. However, LLMs often err and generate something quite unlike what a human might say. Given an LLM-produced code summary, is there a way to gauge whether it's likely to be sufficiently similar to a human produced summary, or not? In this paper, we study this question, as a calibration problem: given a summary from an LLM, can we compute a confidence measure, which is a good indication of whether the summary is sufficiently similar to what a human would have produced in this situation? We examine this question using several LLMs, for several languages, and in several different settings. We suggest an approach which provides well-calibrated predictions of likelihood of similarity to human summaries.
Abstract（参考訳）: 優れた要約は、しばしばプログラムの理解において非常に有用である。簡潔で、流動的で、関連する要約は役に立つが、生産にはかなりの人的努力が必要である。多くの場合、ソフトウェアプロジェクトでは優れた要約が利用できないため、メンテナンスがより困難になる。コードの要約を生成するためにLarge Language Model(LLMs)を使用する自動AIベースの手法について、かなりの研究が続けられている。 BERTScore(英語版)やBLEU(英語版)などの対策が提案され、人体実験で評価されている。しかし、LSMは人間が言うようなものとはかなり異なるものを生成します。 LLMが生成したコード要約を考えると、それが人間が生成した要約と十分に類似しているかどうかを判断する方法はあるだろうか? 本稿では, キャリブレーション問題として, LLM の要約から, 信頼度を計算できるかどうかを考察する。これは, 人間がこの状況で生み出したものと十分に類似しているかどうかを示す良い指標である。いくつかのLLM、複数の言語、いくつかの異なる設定でこの問題について検討する。本稿では,ヒトの要約と類似性の可能性について,よく校正された予測を提供するアプローチを提案する。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。 LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。 CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文参考訳（メタデータ） (2024-12-02T09:56:18Z)
Can LLMs Replace Manual Annotation of Software Engineering Artifacts? [24.563167762241346]
大規模言語モデル(LLM)は、最近、いくつかの領域で人間レベルのパフォーマンスを実証し始めた。本稿では、コードやコード関連アーティファクトの評価において、より安価なLCMクエリーでコストのかかる被験者を代用する可能性について検討する。以上の結果から,LLMを人体アノテーションに置き換えることで,人体・人体・人体間の合意に等しいあるいは近い契約が成立する可能性が示唆された。
論文参考訳（メタデータ） (2024-08-10T12:30:01Z)
Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文参考訳（メタデータ） (2024-07-09T05:48:42Z)
Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文参考訳（メタデータ） (2024-05-30T03:00:47Z)
AugSumm: towards generalizable speech summarization using synthetic labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。 AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文参考訳（メタデータ） (2024-01-10T18:39:46Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis [18.775126929754833]
Thematic Analysis (TA)は、多くの分野や分野における定性的データを解析するために広く使われている。ヒューマンコーダはデータの解釈とコーディングを複数のイテレーションで開発し、より深くする。 In-context Learning (ICL) を用いたTAを実現するための人間-LLM協調フレームワーク(LLM-in-the-loop)を提案する。
論文参考訳（メタデータ） (2023-10-23T17:05:59Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。 GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文参考訳（メタデータ） (2023-10-01T20:46:44Z)
Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文参考訳（メタデータ） (2023-09-18T08:13:01Z)
Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks [12.723777984461693]
大型言語モデル(LLM)は注目すべきデータアノテータである。クラウドソーシングは、人間のアノテーションを得るための重要で安価な方法であり、それ自体はLLMの影響を受けているかもしれない。作業完了時には,33～46%がLLMを使用していた。
論文参考訳（メタデータ） (2023-06-13T16:46:24Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。