論文の概要: Diversity Measures: Domain-Independent Proxies for Failure in Language
Model Queries
- arxiv url: http://arxiv.org/abs/2308.11189v1
- Date: Tue, 22 Aug 2023 04:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:03:48.723551
- Title: Diversity Measures: Domain-Independent Proxies for Failure in Language
Model Queries
- Title(参考訳): 多様性対策:言語モデルクエリの障害に対するドメインに依存しないプロキシ
- Authors: Noel Ngu, Nathaniel Lee, Paulo Shakarian
- Abstract要約: 本稿では,与えられたプロンプトに対する応答の多様性に基づいて,大規模言語モデルの応答における誤りの定量化手法を提案する。
複数のデータセットと温度設定に関する一連の実験を行い、これらの測定が失敗の確率と強く相関していることを示す。
- 参考スコア(独自算出の注目度): 0.1657441317977376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Error prediction in large language models often relies on domain-specific
information. In this paper, we present measures for quantification of error in
the response of a large language model based on the diversity of responses to a
given prompt - hence independent of the underlying application. We describe how
three such measures - based on entropy, Gini impurity, and centroid distance -
can be employed. We perform a suite of experiments on multiple datasets and
temperature settings to demonstrate that these measures strongly correlate with
the probability of failure. Additionally, we present empirical results
demonstrating how these measures can be applied to few-shot prompting,
chain-of-thought reasoning, and error detection.
- Abstract(参考訳): 大きな言語モデルにおけるエラー予測は、しばしばドメイン固有の情報に依存する。
本稿では,与えられたプロンプトに対する応答の多様性に基づいて,大規模言語モデルの応答における誤差の定量化手法を提案する。
エントロピー, ジーニ不純物, セントロイド距離に基づく3つの測度を用いる方法について述べる。
複数のデータセットと温度設定に関する一連の実験を行い、これらの測定が失敗の確率と強く相関していることを示す。
さらに,これらの指標が,数ショットプロンプト,連鎖的思考推論,誤り検出にどのように適用できるかを示す実験結果を示す。
関連論文リスト
- Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Faithful Model Evaluation for Model-Based Metrics [22.753929098534403]
モデルに基づくメトリクスの重要度テストの数学的基礎を確立する。
モデルに基づく測定値のサンプル分散を計算するために, 計量モデル誤差を考慮すると, 特定の実験における結論が変化することを示す。
論文 参考訳(メタデータ) (2023-12-19T19:41:33Z) - Identifiable causal inference with noisy treatment and no side information [6.432072145009342]
本研究では,不正確な連続処理変数を仮定するモデルについて検討する。
提案手法の因果効果推定は, 測定誤差のばらつきや, その他の側面情報の知識がなくても, 同定可能であることを証明した。
我々の研究は、信頼できる因果推論を行うアプリケーションの範囲を広げている。
論文 参考訳(メタデータ) (2023-06-18T18:38:10Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Prediction Errors for Penalized Regressions based on Generalized
Approximate Message Passing [0.0]
C_p$ criterion, Information criteria, and leave-one-out Cross Validation (LOOCV) error。
GAMPの枠組みでは,推定値の分散を利用して情報基準を表現できることが示されている。
論文 参考訳(メタデータ) (2022-06-26T09:42:39Z) - Composite Goodness-of-fit Tests with Kernels [19.744607024807188]
本稿では,難解な複合テスト問題に対するカーネルベースの仮説テストを提案する。
実験では,最小距離推定器を用いて,最大平均誤差とカーネルのStein誤差を推定した。
主な結果として、パラメータを推定し、正しいテストレベルを維持しながら、同じデータ上でテストを実行することができることを示す。
論文 参考訳(メタデータ) (2021-11-19T15:25:06Z) - Detecting Word Sense Disambiguation Biases in Machine Translation for
Model-Agnostic Adversarial Attacks [84.61578555312288]
本稿では,統計的データ特性に基づく曖昧な誤りの予測手法を提案する。
我々は,曖昧な誤りを生じさせるため,文の摂動を最小限に抑える,単純な敵攻撃戦略を開発する。
以上の結果から,曖昧さの堅牢性はドメイン間で大きく異なり,同一データ上でトレーニングされた異なるモデルが異なる攻撃に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2020-11-03T17:01:44Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z) - A Causal Direction Test for Heterogeneous Populations [10.653162005300608]
ほとんどの因果モデルでは、単一の同質な集団を仮定するが、これは多くの応用において成り立たない仮定である。
等質性仮定に違反した場合、そのような仮定に基づいて開発された因果モデルが正しい因果方向を識別できないことを示す。
我々は,$k$-means型クラスタリングアルゴリズムを用いて,一般的な因果方向検定統計量の調整を提案する。
論文 参考訳(メタデータ) (2020-06-08T18:59:14Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。