論文の概要: Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded Dialogue Generation
- arxiv url: http://arxiv.org/abs/2310.18794v3
- Date: Fri, 12 Apr 2024 23:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:27:27.457259
- Title: Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded Dialogue Generation
- Title(参考訳): シークエンスレベル不確実性は知識を中心とした対話生成における幻覚を減少させる
- Authors: Yixin Wan, Fanyou Wu, Weijie Xu, Srinivasan H. Sengamedu,
- Abstract要約: 知識基盤対話生成(KGDG)における幻覚に関する共通テーマとしてのシーケンスレベルの確実性を提案する。
本研究では,モデル応答における幻覚レベルと,確率的確実性と意味的確実性という2種類のシーケンスレベルの確実性との相関について検討する。
本稿では,デコード時幻覚緩和法であるCRR(Certainty-based Response Ranking)を提案する。
- 参考スコア(独自算出の注目度): 6.474760227870046
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this work, we propose sequence-level certainty as a common theme over hallucination in Knowledge Grounded Dialogue Generation (KGDG). We explore the correlation between the level of hallucination in model responses and two types of sequence-level certainty: probabilistic certainty and semantic certainty. Empirical results reveal that higher levels of both types of certainty in model responses are correlated with lower levels of hallucination. We further propose Certainty-based Response Ranking (CRR), a decoding-time hallucination mitigation method that samples several response candidates, ranks them based on sequence-level certainty, and outputs the response with the highest certainty level. Aligning with our definitions of sequence-level certainty, we design 2 types of CRR approaches: Probabilistic CRR (P-CRR) and Semantic CRR (S-CRR). P-CRR ranks individually sampled model responses using the arithmetic mean log-probability of the entire sequence. S-CRR approaches certainty estimation from meaning-space, and ranks model response candidates based on their semantic certainty level as measured by an entailment-based Agreement Score (AS). Through extensive experiments across 3 KGDG datasets, 3 decoding methods, and 4 KGDG models, we validate the effectiveness of CRR for reducing hallucination in KGDG task.
- Abstract(参考訳): 本研究では,知識基盤対話生成(KGDG)における幻覚に関する共通テーマとして,シーケンスレベルの確実性を提案する。
本研究では,モデル応答における幻覚レベルと,確率的確実性と意味的確実性という2種類のシーケンスレベルの確実性との相関について検討する。
実験結果から, モデル応答における両タイプの確証度の高い値と幻覚の低い値との相関が示唆された。
さらにCRR(Certainty-based Response Ranking)を提案する。この手法は,複数の応答候補をサンプリングし,シーケンスレベルの確実性に基づいてそれらをランク付けし,高い確信度で応答を出力する。
シーケンスレベルの確実性の定義に従って、確率的CRR(P-CRR)とセマンティックCRR(S-CRR)の2種類のCRRアプローチを設計する。
P-CRRは、列全体の算術平均対数確率を用いて、個別にサンプリングされたモデル応答をランク付けする。
S-CRRは、意味空間からの確実性推定にアプローチし、その意味的確実性レベルに基づいてモデル応答候補をentailment-based Agreement Score (AS) によって測定する。
3つのKGDGデータセット、3つの復号法、および4つのKGDGモデルにわたる広範囲な実験を通して、我々は、KGDGタスクにおける幻覚を減らすためのCRRの有効性を検証した。
関連論文リスト
- Mean-Field Langevin Dynamics for Signed Measures via a Bilevel Approach [4.577104493960515]
平均場ランゲヴィン力学(英: Mean-field Langevin dynamics、MLFD)は、多様体上の確率測度に対する凸最適化に取り組む相互作用粒子法の一種。
我々は,MFLDフレームワークを拡張して,符号付き測度よりも最適化問題を凸化する方法を示す。
論文 参考訳(メタデータ) (2024-06-24T18:15:12Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models [9.465753274663061]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。
本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文 参考訳(メタデータ) (2023-12-31T04:43:45Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Diverse and Faithful Knowledge-Grounded Dialogue Generation via
Sequential Posterior Inference [82.28542500317445]
本稿では,知識の選択と対話生成が可能な,逐次後推論(Sequential Posterior Inference, SPI)と呼ばれるエンドツーエンド学習フレームワークを提案する。
他の方法とは異なり、SPIは推論ネットワークを必要とせず、後部分布の単純な幾何学を仮定する。
論文 参考訳(メタデータ) (2023-06-01T21:23:13Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。