Fugu-MT 論文翻訳(概要): Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded Dialogue Generation

論文の概要: Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded Dialogue Generation

arxiv url: http://arxiv.org/abs/2310.18794v1
Date: Sat, 28 Oct 2023 19:42:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 16:30:24.546143
Title: Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded Dialogue Generation
Title（参考訳）: 知識接地対話生成における幻覚を減少させるシーケンスレベル確信性
Authors: Yixin Wan, Fanyou Wu, Weijie Xu, Srinivasan H. Sengamedu
Abstract要約: 自然言語生成における幻覚に関する共通テーマとしてシーケンスレベルの確実性を提案する。シーケンスレベルの確実性は確率的確実性と意味的確実性という2つの側面に分類する。 NLGにおける幻覚を緩和するための復号時間法であるCertainty-based Response Ranking (CRR)を提案する。
参考スコア（独自算出の注目度）: 7.07321040534471
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Model hallucination has been a crucial interest of research in Natural Language Generation (NLG). In this work, we propose sequence-level certainty as a common theme over hallucination in NLG, and explore the correlation between sequence-level certainty and the level of hallucination in model responses. We categorize sequence-level certainty into two aspects: probabilistic certainty and semantic certainty, and reveal through experiments on Knowledge-Grounded Dialogue Generation (KGDG) task that both a higher level of probabilistic certainty and a higher level of semantic certainty in model responses are significantly correlated with a lower level of hallucination. What's more, we provide theoretical proof and analysis to show that semantic certainty is a good estimator of probabilistic certainty, and therefore has the potential as an alternative to probability-based certainty estimation in black-box scenarios. Based on the observation on the relationship between certainty and hallucination, we further propose Certainty-based Response Ranking (CRR), a decoding-time method for mitigating hallucination in NLG. Based on our categorization of sequence-level certainty, we propose 2 types of CRR approach: Probabilistic CRR (P-CRR) and Semantic CRR (S-CRR). P-CRR ranks individually sampled model responses using their arithmetic mean log-probability of the entire sequence. S-CRR approaches certainty estimation from meaning-space, and ranks a number of model response candidates based on their semantic certainty level, which is estimated by the entailment-based Agreement Score (AS). Through extensive experiments across 3 KGDG datasets, 3 decoding methods, and on 4 different models, we validate the effectiveness of our 2 proposed CRR methods to reduce model hallucination.
Abstract（参考訳）: モデル幻覚は自然言語生成(nlg)の研究において重要な関心事となっている。本研究では, NLGにおける幻覚に関する共通テーマとしてシーケンスレベルの確実性を提案し, モデル応答におけるシーケンスレベルの確実性と幻覚レベルの相関について検討する。我々は,確率的確実性と意味的確実性という2つの側面に分類し,確率的確実性が高いレベルとモデル応答における意味的確実性が高いレベルの両方が幻覚の低いレベルと有意に相関していることを示す。さらに、我々は、意味的確実性が確率的確実性の優れた推定指標であることを示し、ブラックボックスシナリオにおける確率に基づく確実性推定の代替となる可能性を示す理論的証明と分析を提供する。本研究は,nlgにおける幻覚緩和のための復号時間法である,確実度と幻覚の関係の観察から,さらに確信度に基づく応答ランキング(crr)を提案する。シーケンスレベルの確実性の分類に基づいて,確率的CRR (P-CRR) とセマンティックCRR (S-CRR) の2種類のCRRアプローチを提案する。 P-CRRは、その算術平均対数確率を用いて、個々のサンプルモデル応答をランク付けする。 S-CRRは意味空間からの確実性推定にアプローチし、その意味的確実性レベルに基づいて多数のモデル応答候補をランク付けする。 3つのKGDGデータセット、3つの復号法、および4つの異なるモデルに対する広範な実験を通じて、モデル幻覚を減らすための2つのCRR法の有効性を検証する。

関連論文リスト

Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。 1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文参考訳（メタデータ） (2026-01-09T07:59:18Z)
Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文参考訳（メタデータ） (2025-11-12T08:29:39Z)
Hallucination Benchmark for Speech Foundation Models [33.92968426403491]
自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち、音声信号)とは全く無関係な神経性ASRモデルによって生成される流動的でコヒーレントな転写を指す。この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。本稿では,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
論文参考訳（メタデータ） (2025-10-18T16:26:16Z)
Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文参考訳（メタデータ） (2025-09-29T12:15:52Z)
THCM-CAL: Temporal-Hierarchical Causal Modelling with Conformal Calibration for Clinical Risk Prediction [18.00167292196245]
コンフォーマル因果モデルを用いた時間階層因果モデルTHCM-CALを提案する。本フレームワークは,ノードが2つのモードから臨床エンティティを表現するマルチモーダル因果グラフを構築する。階層的な因果発見を通じて、THCM-CALは、スライス内同一モダリティシークエンシング、スライス内相互モダリティトリガー、スライス間リスク伝播の3つの臨床基盤的相互作用を推測する。
論文参考訳（メタデータ） (2025-06-21T22:43:42Z)
Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文参考訳（メタデータ） (2025-05-27T11:56:59Z)
RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection [29.344966292751817]
幻覚は大きな言語モデルにとって重要な障害ですこれら2つの側面により不確実性の測定を補正するRePPLを提案する。提案手法は,様々なQAデータセットにまたがる最高の包括的検出性能を実現する。
論文参考訳（メタデータ） (2025-05-21T11:23:05Z)
Random-Set Large Language Models [4.308457163593758]
大規模言語モデル(LLM)は、クエリに対する非常に高品質なテストとレスポンスを生成することで知られています。しかし、この生成されたテキストはいくら信用できますか? 本稿では,トークン空間上の有限ランダム集合(関数)を予測するランダムセット大言語モデル(RSLLM)を提案する。
論文参考訳（メタデータ） (2025-04-25T05:25:27Z)
Mean-Field Langevin Dynamics for Signed Measures via a Bilevel Approach [4.577104493960515]
平均場ランゲヴィン力学(英: Mean-field Langevin dynamics、MLFD)は、多様体上の確率測度に対する凸最適化に取り組む相互作用粒子法の一種。我々は,MFLDフレームワークを拡張して,符号付き測度よりも最適化問題を凸化する方法を示す。
論文参考訳（メタデータ） (2024-06-24T18:15:12Z)
To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。定式化の利点を実証する一連の実験を行う。
論文参考訳（メタデータ） (2024-06-04T17:58:18Z)
Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文参考訳（メタデータ） (2024-04-04T11:32:03Z)
RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models [9.465753274663061]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文参考訳（メタデータ） (2023-12-31T04:43:45Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Diverse and Faithful Knowledge-Grounded Dialogue Generation via Sequential Posterior Inference [82.28542500317445]
本稿では,知識の選択と対話生成が可能な,逐次後推論(Sequential Posterior Inference, SPI)と呼ばれるエンドツーエンド学習フレームワークを提案する。他の方法とは異なり、SPIは推論ネットワークを必要とせず、後部分布の単純な幾何学を仮定する。
論文参考訳（メタデータ） (2023-06-01T21:23:13Z)
GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP, and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文参考訳（メタデータ） (2022-11-03T16:42:40Z)
Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文参考訳（メタデータ） (2021-06-07T17:47:16Z)
Binary Classification of Gaussian Mixtures: Abundance of Support Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。後者の分類誤差に関する新しい非漸近境界を導出する。この結果は, 確率が一定である雑音モデルに拡張される。
論文参考訳（メタデータ） (2020-11-18T07:59:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。