論文の概要: Diversity Measures: Domain-Independent Proxies for Failure in Language
Model Queries
- arxiv url: http://arxiv.org/abs/2308.11189v1
- Date: Tue, 22 Aug 2023 04:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:03:48.723551
- Title: Diversity Measures: Domain-Independent Proxies for Failure in Language
Model Queries
- Title(参考訳): 多様性対策:言語モデルクエリの障害に対するドメインに依存しないプロキシ
- Authors: Noel Ngu, Nathaniel Lee, Paulo Shakarian
- Abstract要約: 本稿では,与えられたプロンプトに対する応答の多様性に基づいて,大規模言語モデルの応答における誤りの定量化手法を提案する。
複数のデータセットと温度設定に関する一連の実験を行い、これらの測定が失敗の確率と強く相関していることを示す。
- 参考スコア(独自算出の注目度): 0.1657441317977376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Error prediction in large language models often relies on domain-specific
information. In this paper, we present measures for quantification of error in
the response of a large language model based on the diversity of responses to a
given prompt - hence independent of the underlying application. We describe how
three such measures - based on entropy, Gini impurity, and centroid distance -
can be employed. We perform a suite of experiments on multiple datasets and
temperature settings to demonstrate that these measures strongly correlate with
the probability of failure. Additionally, we present empirical results
demonstrating how these measures can be applied to few-shot prompting,
chain-of-thought reasoning, and error detection.
- Abstract(参考訳): 大きな言語モデルにおけるエラー予測は、しばしばドメイン固有の情報に依存する。
本稿では,与えられたプロンプトに対する応答の多様性に基づいて,大規模言語モデルの応答における誤差の定量化手法を提案する。
エントロピー, ジーニ不純物, セントロイド距離に基づく3つの測度を用いる方法について述べる。
複数のデータセットと温度設定に関する一連の実験を行い、これらの測定が失敗の確率と強く相関していることを示す。
さらに,これらの指標が,数ショットプロンプト,連鎖的思考推論,誤り検出にどのように適用できるかを示す実験結果を示す。
関連論文リスト
- A statistically consistent measure of Semantic Variability using Language Models [3.4933610074113464]
軽度の仮定の下で統計的に一貫した意味変数の尺度を示す。
この測度は意味スペクトルエントロピー(semantic spectrum entropy, 意味スペクトルエントロピー)と呼ばれ、棚外の言語モデルを必要とするアルゴリズムの実装が容易である。
論文 参考訳(メタデータ) (2025-02-01T17:55:58Z) - DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。
マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。
提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - The Mismeasure of Man and Models: Evaluating Allocational Harms in Large Language Models [22.75594773147521]
大規模言語モデル(LLM)におけるバイアスから生じる潜在的アロケーション障害を評価するモデル非依存バイアス指標であるランクアロケーションベースバイアス指標(RABBI)を導入する。
その結果, 平均性能差と分布距離に基づく偏差測定では, 割り当て結果の集団差を確実に把握できないことがわかった。
私たちの研究は、限られたリソース制約のあるコンテキストでモデルがどのように使用されるかを説明する必要性を強調しています。
論文 参考訳(メタデータ) (2024-08-02T14:13:06Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - On Subjective Uncertainty Quantification and Calibration in Natural Language Generation [2.622066970118316]
大規模言語モデルは多くの場合、不確実な定量化が困難になるような自由形式の応答を生成する。
この研究はベイズ決定論の観点からこれらの課題に対処する。
本稿では,モデルの主観的不確実性とそのキャリブレーションを原理的に定量化する方法について論じる。
提案手法はブラックボックス言語モデルに適用できる。
論文 参考訳(メタデータ) (2024-06-07T18:54:40Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Identifiable causal inference with noisy treatment and no side information [6.432072145009342]
本研究では,不正確な連続処理変数を仮定するモデルを提案する。
我々は,提案モデルの因果効果の推定値が,側情報や測定誤差の分散に関する知識がなくても同定可能であることを証明した。
我々の研究は、信頼できる因果推論を行うアプリケーションの範囲を広げている。
論文 参考訳(メタデータ) (2023-06-18T18:38:10Z) - Prediction Errors for Penalized Regressions based on Generalized
Approximate Message Passing [0.0]
C_p$ criterion, Information criteria, and leave-one-out Cross Validation (LOOCV) error。
GAMPの枠組みでは,推定値の分散を利用して情報基準を表現できることが示されている。
論文 参考訳(メタデータ) (2022-06-26T09:42:39Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。