論文の概要: Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded
Dialogue Generation
- arxiv url: http://arxiv.org/abs/2310.18794v1
- Date: Sat, 28 Oct 2023 19:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:30:24.546143
- Title: Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded
Dialogue Generation
- Title(参考訳): 知識接地対話生成における幻覚を減少させるシーケンスレベル確信性
- Authors: Yixin Wan, Fanyou Wu, Weijie Xu, Srinivasan H. Sengamedu
- Abstract要約: 自然言語生成における幻覚に関する共通テーマとしてシーケンスレベルの確実性を提案する。
シーケンスレベルの確実性は確率的確実性と意味的確実性という2つの側面に分類する。
NLGにおける幻覚を緩和するための復号時間法であるCertainty-based Response Ranking (CRR)を提案する。
- 参考スコア(独自算出の注目度): 7.07321040534471
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Model hallucination has been a crucial interest of research in Natural
Language Generation (NLG). In this work, we propose sequence-level certainty as
a common theme over hallucination in NLG, and explore the correlation between
sequence-level certainty and the level of hallucination in model responses. We
categorize sequence-level certainty into two aspects: probabilistic certainty
and semantic certainty, and reveal through experiments on Knowledge-Grounded
Dialogue Generation (KGDG) task that both a higher level of probabilistic
certainty and a higher level of semantic certainty in model responses are
significantly correlated with a lower level of hallucination. What's more, we
provide theoretical proof and analysis to show that semantic certainty is a
good estimator of probabilistic certainty, and therefore has the potential as
an alternative to probability-based certainty estimation in black-box
scenarios. Based on the observation on the relationship between certainty and
hallucination, we further propose Certainty-based Response Ranking (CRR), a
decoding-time method for mitigating hallucination in NLG. Based on our
categorization of sequence-level certainty, we propose 2 types of CRR approach:
Probabilistic CRR (P-CRR) and Semantic CRR (S-CRR). P-CRR ranks individually
sampled model responses using their arithmetic mean log-probability of the
entire sequence. S-CRR approaches certainty estimation from meaning-space, and
ranks a number of model response candidates based on their semantic certainty
level, which is estimated by the entailment-based Agreement Score (AS). Through
extensive experiments across 3 KGDG datasets, 3 decoding methods, and on 4
different models, we validate the effectiveness of our 2 proposed CRR methods
to reduce model hallucination.
- Abstract(参考訳): モデル幻覚は自然言語生成(nlg)の研究において重要な関心事となっている。
本研究では, NLGにおける幻覚に関する共通テーマとしてシーケンスレベルの確実性を提案し, モデル応答におけるシーケンスレベルの確実性と幻覚レベルの相関について検討する。
我々は,確率的確実性と意味的確実性という2つの側面に分類し,確率的確実性が高いレベルとモデル応答における意味的確実性が高いレベルの両方が幻覚の低いレベルと有意に相関していることを示す。
さらに、我々は、意味的確実性が確率的確実性の優れた推定指標であることを示し、ブラックボックスシナリオにおける確率に基づく確実性推定の代替となる可能性を示す理論的証明と分析を提供する。
本研究は,nlgにおける幻覚緩和のための復号時間法である,確実度と幻覚の関係の観察から,さらに確信度に基づく応答ランキング(crr)を提案する。
シーケンスレベルの確実性の分類に基づいて,確率的CRR (P-CRR) とセマンティックCRR (S-CRR) の2種類のCRRアプローチを提案する。
P-CRRは、その算術平均対数確率を用いて、個々のサンプルモデル応答をランク付けする。
S-CRRは意味空間からの確実性推定にアプローチし、その意味的確実性レベルに基づいて多数のモデル応答候補をランク付けする。
3つのKGDGデータセット、3つの復号法、および4つの異なるモデルに対する広範な実験を通じて、モデル幻覚を減らすための2つのCRR法の有効性を検証する。
関連論文リスト
- RAGTruth: A Hallucination Corpus for Developing Trustworthy
Retrieval-Augmented Language Models [9.821721282422603]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。
本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文 参考訳(メタデータ) (2023-12-31T04:43:45Z) - SAC3: Reliable Hallucination Detection in Black-Box Language Models via
Semantic-aware Cross-check Consistency [11.056236593022978]
幻覚検出は現代言語モデル(LM)の信頼性を理解するための重要なステップである
我々は,LMの自己整合性に基づく既存の検出手法を再検討し,(1)質問レベルと(2)モデルレベルの2種類の幻覚を明らかにする。
本稿では, 自己整合性チェックの原理に基づいて, セマンティック・アウェア・クロスチェック整合性(SAC3)という, サンプリングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-03T06:32:43Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Diverse and Faithful Knowledge-Grounded Dialogue Generation via
Sequential Posterior Inference [82.28542500317445]
本稿では,知識の選択と対話生成が可能な,逐次後推論(Sequential Posterior Inference, SPI)と呼ばれるエンドツーエンド学習フレームワークを提案する。
他の方法とは異なり、SPIは推論ネットワークを必要とせず、後部分布の単純な幾何学を仮定する。
論文 参考訳(メタデータ) (2023-06-01T21:23:13Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Neural Path Hunter: Reducing Hallucination in Dialogue Systems via Path
Grounding [15.62141731259161]
知識グラフ(KG)による既知の事実に対するニューラルダイアログシステムの忠実度向上の課題に焦点をあてる。
KG の k-hop サブグラフを用いて生成した応答を修正する生成・再定義戦略に従ったニューラルパスハンターを提案する。
提案モデルは,モデルを再トレーニングすることなく,任意の対話生成応答に容易に適用できる。
論文 参考訳(メタデータ) (2021-04-17T05:23:44Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。