Fugu-MT 論文翻訳(概要): Enhancing Fault Detection for Large Language Models via Mutation-Based Confidence Smoothing

論文の概要: Enhancing Fault Detection for Large Language Models via Mutation-Based Confidence Smoothing

arxiv url: http://arxiv.org/abs/2404.14419v1
Date: Sun, 14 Apr 2024 07:06:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-28 11:16:37.566902
Title: Enhancing Fault Detection for Large Language Models via Mutation-Based Confidence Smoothing
Title（参考訳）: 変異に基づく信頼平滑化による大規模言語モデルの故障検出の強化
Authors: Qiang Hu, Jin Wen, Maxime Cordy, Yuheng Huang, Xiaofei Xie, Lei Ma,
Abstract要約: 大きな言語モデル(LLM)の欠点を素早く明らかにする方法は重要だが、難しい。既存の故障検出手法はLLMではうまく動作しない。そこで本研究では,Mutation-based prediction Confidence Smoothing method for LLMsを提案する。
参考スコア（独自算出の注目度）: 24.55745161068782
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) achieved great success in multiple application domains and attracted huge attention from different research communities recently. Unfortunately, even for the best LLM, there still exist many faults that LLM cannot correctly predict. Such faults will harm the usability of LLMs. How to quickly reveal them in LLMs is important, but challenging. The reasons are twofold, 1) the heavy labeling effort for preparing the test data, and 2) accessing closed-source LLMs such as GPT4 is money-required. To handle this problem, in the traditional deep learning testing field, test selection methods have been proposed for efficiently testing deep learning models by prioritizing faults. However, the usefulness of these methods on LLMs is unclear and under exploration. In this paper, we first study the effectiveness of existing fault detection methods for LLMs. Experimental results on four different tasks~(including both code tasks and natural language processing tasks) and four LLMs (e.g., LLaMA and GPT4) demonstrated that existing fault detection methods cannot perform well on LLMs (e.g., seven out of eight methods perform worse than random selection on LLaMA). To enhance existing fault detection methods, we propose MuCS, a prompt Mutation-based prediction Confidence Smoothing method for LLMs. Concretely, we mutate the prompts and compute the average prediction confidence of all mutants as the input of fault detection methods. The results show that our proposed solution significantly enhances existing methods with the improvement of test relative coverage by up to 97.64%.
Abstract（参考訳）: 大規模言語モデル(LLM)は、複数のアプリケーションドメインで大きな成功を収め、最近様々な研究コミュニティから大きな注目を集めた。残念なことに、最高のLLMであっても、LLMが正しく予測できない多くの欠点が存在する。このような欠陥はLLMのユーザビリティを損なう。 LLMで素早く公開する方法は重要だが、難しい。理由は2つある。 1 検査データ作成のための重ラベル作成の取り組み及び 2) GPT4 などのクローズドソース LLM へのアクセスは金銭的要求である。この問題に対処するため、従来のディープラーニングテスト分野では、障害の優先順位付けによるディープラーニングモデルを効率的にテストするためのテスト選択法が提案されている。しかし, LLMにおけるこれらの手法の有用性は明らかであり, 探索中である。本稿では,LLMにおける既存の故障検出手法の有効性について検討する。 4つの異なるタスク(コードタスクと自然言語処理タスクの両方を含む)と4つのLLM(例えば、LLaMAとGPT4)の実験結果から、既存の故障検出手法はLLMではうまく動作しない(例えば、8つのメソッドのうち7つは、LLaMAではランダム選択よりも悪い)。既存の故障検出手法を強化するために,ミューテーションに基づくLCMの信頼度平滑化手法である MuCS を提案する。具体的には,全てのミュータントの平均予測信頼度を,故障検出手法の入力として計算する。提案手法は, 試験対象範囲を97.64%まで改善し, 既存手法を著しく向上させることが示唆された。

関連論文リスト

LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文参考訳（メタデータ） (2025-07-30T03:50:46Z)
ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。 LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文参考訳（メタデータ） (2025-07-03T19:19:44Z)
Smaller = Weaker? Benchmarking Robustness of Quantized LLMs in Code Generation [7.262231066394782]
大規模言語モデル(LLM)を圧縮する主流手法として量子化が登場したコード生成タスクにおいて,量子化がLLMのロバスト性に与える影響について,最初の系統的研究を行った。本研究は,LLMの量子化が実精度よりも優れた強靭性を示すことを示すことによって,従来の知恵に挑戦する。
論文参考訳（メタデータ） (2025-06-28T06:32:25Z)
Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review [11.856357456956351]
大規模言語モデル(LLM)は多くの領域にまたがって変換されている。不確実性定量化(英: Uncertainty Quantification, UQ)とは、不確実性の測定と、不確実性と正確性の間の不一致に対処するための校正技術である。この調査は、LCMの校正方法と関連するメトリクスをレビューする最初の専用研究である。
論文参考訳（メタデータ） (2025-04-25T13:34:40Z)
Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection [8.22737389683156]
大規模言語モデル(LLM)は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。 LLM4FL は,SBFL ランキングと配当戦略を統合した新しい LLM4FL の故障局所化手法である。以上の結果から,LLM4FLはTop-1の精度でAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回っていることがわかった。
論文参考訳（メタデータ） (2024-09-20T16:47:34Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。 GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文参考訳（メタデータ） (2024-06-12T02:23:51Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文参考訳（メタデータ） (2024-01-23T14:29:17Z)
Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。近年の文献では、LLMは断続的に非実効応答を生成する。本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文参考訳（メタデータ） (2023-10-27T06:22:14Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Certified Robustness for Large Language Models with Self-Denoising [42.916661225753145]
本稿では,大言語モデル (LLM) を用いて, 劣化した入力を自己認識的に認知する手法を提案する。本手法は,証明された堅牢性と実証的堅牢性の両方の下で,既存の認証方法よりも優れる。
論文参考訳（メタデータ） (2023-07-14T05:40:24Z)
Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文参考訳（メタデータ） (2023-06-22T17:31:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。