論文の概要: Estimating LLM Consistency: A User Baseline vs Surrogate Metrics
- arxiv url: http://arxiv.org/abs/2505.23799v3
- Date: Mon, 27 Oct 2025 14:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.605211
- Title: Estimating LLM Consistency: A User Baseline vs Surrogate Metrics
- Title(参考訳): LLM一貫性の推定: ユーザベースラインとサロゲートメトリック
- Authors: Xiaoyuan Wu, Weiran Lin, Omer Akgul, Lujo Bauer,
- Abstract要約: 大型言語モデル(LLM)は幻覚や敏感な摂動を引き起こす傾向がある。
本稿では,LLMの一貫性を推定するためのロジットに基づくアンサンブル手法を提案する。
- 参考スコア(独自算出の注目度): 13.001452293293596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are prone to hallucinations and sensitiveto prompt perturbations, often resulting in inconsistent or unreliablegenerated text. Different methods have been proposed to mitigate suchhallucinations and fragility, one of which is to measure theconsistency of LLM responses -- the model's confidence in the responseor likelihood of generating a similar response when resampled. Inprevious work, measuring LLM response consistency often relied oncalculating the probability of a response appearing within a pool of resampledresponses, analyzing internal states, or evaluating logits of resopnses.However, it was not clear how well theseapproaches approximated users' perceptions of consistency of LLMresponses. To find out, we performed a user study ($n=2,976$)demonstrating that current methods for measuring LLM responseconsistency typically do not align well with humans' perceptions of LLMconsistency. We propose a logit-based ensemble method for estimatingLLM consistency and show that our method matches the performance of thebest-performing existing metric in estimating human ratings of LLMconsistency. Our results suggest that methods for estimating LLMconsistency without human evaluation are sufficiently imperfect towarrant broader use of evaluation with human input; this would avoidmisjudging the adequacy of models because of the imperfections ofautomated consistency metrics.
- Abstract(参考訳): 大型言語モデル(LLM)は幻覚や敏感な摂動を引き起こす傾向があり、しばしば一貫性のない、あるいは信頼性の低いテキストを生み出す。
その1つはLCM応答の整合性を測定することであり、モデルが再サンプリングされた時に同様の応答を発生させる可能性への信頼度である。
これまでの研究では、LLM応答の一貫性の測定は、リサンプルレスポンスのプールに現れる応答の確率を計算したり、内部状態を分析したり、リソプソンのロジットを評価したりすることが多かったが、これらのパッチがLLMレスポンスの一貫性に対するユーザの認識をどの程度正確に評価したかは明らかではなかった。
そこで本研究では,LLM応答一貫性を計測する現在の手法は,LLM応答性に対する人間の認識とよく一致しない,というユーザスタディ(n=2,976$)を実行した。
我々は,LLMの一貫性を推定するためのロジットに基づくアンサンブル手法を提案し,その手法がLLM一貫性の人間評価を推定する上で,最も性能の高い既存の指標の性能と一致することを示す。
以上の結果から,人間の評価を伴わないLCMの一貫性を推定する方法は,人間の入力による評価を危険に晒すのに十分な不完全なものであることが示唆された。
関連論文リスト
- Cleanse: Uncertainty Estimation Approach Using Clustering-based Semantic Consistency in LLMs [5.161416961439468]
本研究では,textbfClusttextbfering に基づくsemtextbfantic contextbfsisttextbfency (textbfCleanse) を用いた効果的な不確実性推定手法を提案する。
LLaMA-7B, LLaMA-13B, LLaMA2-7B, Mistral-7Bの4つの市販モデルを用いて, 幻覚検出におけるクリーンスの有効性を検証した。
論文 参考訳(メタデータ) (2025-07-19T14:48:24Z) - Uncertainty Quantification for LLM-Based Survey Simulations [9.303339416902995]
本研究では,大規模言語モデル(LLM)を用いて質問に対する人間の反応をシミュレートする。
提案手法は,不完全なLLMシミュレーション応答を集団パラメータの信頼セットに変換する。
重要な革新は、シミュレーションされたレスポンスの最適な数を決定することである。
論文 参考訳(メタデータ) (2025-02-25T02:07:29Z) - Evaluating Consistencies in LLM responses through a Semantic Clustering of Question Answering [1.9214041945441436]
本稿では,Large Language Model (LLM) のセマンティクスを評価するための新しいアプローチを提案する。
本稿では,LLM再応答が意味論的に一致しているかどうかを考察し,構文的に異なる文が同じ意味を持つ可能性があることを認識した。
TruthfulQAデータセットを用いてLLM応答を評価することにより、37のカテゴリにわたる意味的一貫性を測定するために、質問毎にNの応答を誘導し、意味的に等価な文をクラスタ化する。
論文 参考訳(メタデータ) (2024-10-20T16:21:25Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.156064716689833]
本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。
我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。
その結果, LLM は従来と比べ, 誤った単純化出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。