論文の概要: Mitigating LLM Hallucinations via Conformal Abstention
- arxiv url: http://arxiv.org/abs/2405.01563v1
- Date: Thu, 4 Apr 2024 11:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-12 16:10:01.613934
- Title: Mitigating LLM Hallucinations via Conformal Abstention
- Title(参考訳): コンフォーマルアポテンションによるLLM幻覚の緩和
- Authors: Yasin Abbasi Yadkori, Ilja Kuzborskij, David Stutz, András György, Adam Fisch, Arnaud Doucet, Iuliya Beloshapka, Wei-Hung Weng, Yao-Yuan Yang, Csaba Szepesvári, Ali Taylan Cemgil, Nenad Tomasev,
- Abstract要約: 我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
- 参考スコア(独自算出の注目度): 70.83870602967625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a principled procedure for determining when a large language model (LLM) should abstain from responding (e.g., by saying "I don't know") in a general domain, instead of resorting to possibly "hallucinating" a non-sensical or incorrect answer. Building on earlier approaches that use self-consistency as a more reliable measure of model confidence, we propose using the LLM itself to self-evaluate the similarity between each of its sampled responses for a given query. We then further leverage conformal prediction techniques to develop an abstention procedure that benefits from rigorous theoretical guarantees on the hallucination rate (error rate). Experimentally, our resulting conformal abstention method reliably bounds the hallucination rate on various closed-book, open-domain generative question answering datasets, while also maintaining a significantly less conservative abstention rate on a dataset with long responses (Temporal Sequences) compared to baselines using log-probability scores to quantify uncertainty, while achieveing comparable performance on a dataset with short answers (TriviaQA). To evaluate the experiments automatically, one needs to determine if two responses are equivalent given a question. Following standard practice, we use a thresholded similarity function to determine if two responses match, but also provide a method for calibrating the threshold based on conformal prediction, with theoretical guarantees on the accuracy of the match prediction, which might be of independent interest.
- Abstract(参考訳): 我々は,大言語モデル (LLM) が一般ドメインにおける応答(例えば "I don't know" など)を,非感覚的あるいは誤った解答を "幻滅" する代わりに,いつ応答を控えるべきかを決定するための,原則化された手順を開発する。
より信頼性の高いモデル信頼度尺度として自己整合性を用いた従来のアプローチに基づいて,LLM自体を用いて,与えられたクエリに対する各サンプル応答の類似性を自己評価する。
さらに,ホルンシン化率(エラー率)の厳密な理論的保証の恩恵を受けるため,コンフォメーション予測手法を活用して留置手順を開発する。
実験によって得られたコンフォメーション・オブステンション法は,様々な閉書,オープンドメイン生成質問応答データセットに対して,幻覚率を確実に拘束すると同時に,長い応答(テンポラルシーケンス)を持つデータセットに対して,ログ確率スコアを用いて不確実性を定量化するためのベースラインに比べて,保守的アステンション率を著しく低く保ちつつ,短い応答(TriviaQA)を持つデータセット上で同等の性能を達成する。
実験を自動評価するには、2つの応答が質問に等しいかどうかを判断する必要がある。
標準手法に従って、2つの応答が一致したかどうかを判定するために閾値類似関数を用いるが、一致予測に基づくしきい値の校正方法も提供し、一致予測の精度を理論的に保証する。
関連論文リスト
- To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Conformalized Unconditional Quantile Regression [27.528258690139793]
コンフォメーション予測と非条件量子回帰を組み合わせた予測推論手法を開発した。
提案手法は不整合性に適応し,テストインスタンスに関連する透過的なカバレッジ保証を提供し,既存の手法と効率的に競合することを示す。
論文 参考訳(メタデータ) (2023-04-04T00:20:26Z) - Adaptive Conformal Prediction by Reweighting Nonconformity Score [0.0]
我々は、QRF(Quantile Regression Forest)を用いて、不整合スコアの分布を学習し、QRFの重みを利用して、テストポイントに類似した残差を持つサンプルにより重要度を割り当てる。
提案手法は,仮定のない有限標本境界範囲と訓練条件範囲を満足し,適切な仮定の下で条件付き範囲を確保できる。
論文 参考訳(メタデータ) (2023-03-22T16:42:19Z) - Data Association Aware POMDP Planning with Hypothesis Pruning
Performance Guarantees [7.928094304325113]
あいまいなデータアソシエーションによるプランニングのためのプルーニングに基づくアプローチを導入する。
我々の重要な貢献は、仮説の完全な集合に基づく値関数と仮説のプルーンド・サブセットに基づく値関数とのバウンダリを導出することである。
我々は,これらの境界が,ふりかえりにおけるプルーニングの証明にどのように使用できるかを実証し,その損失に対する事前定義された限界を確保するために,どの仮説がプルーンであるかを決定する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-03T18:35:01Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Conformal Inference of Counterfactuals and Individual Treatment Effects [6.810856082577402]
そこで本研究では,反ファクトや個々の治療効果について,信頼できる間隔を推定できる共形推論に基づく手法を提案する。
既存の手法は、単純なモデルであってもかなりのカバレッジの欠陥に悩まされる。
論文 参考訳(メタデータ) (2020-06-11T01:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。