論文の概要: Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.10192v1
- Date: Wed, 13 Aug 2025 20:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.118515
- Title: Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models
- Title(参考訳): 大規模言語モデルにおける暗黙の幻覚と誤認識検出のためのプロンプト応答セマンティック・ディバージェンス・メトリクス
- Authors: Igor Halperin,
- Abstract要約: 本稿では, 忠実な幻覚を検出するための新しい枠組みであるセマンティック・ディバージェンス・メトリックス(SDM)を紹介する。
プロンプトと応答間のトピック共起のヒートマップは、ユーザとマシンの対話の定量的な2次元可視化と見なすことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The proliferation of Large Language Models (LLMs) is challenged by hallucinations, critical failure modes where models generate non-factual, nonsensical or unfaithful text. This paper introduces Semantic Divergence Metrics (SDM), a novel lightweight framework for detecting Faithfulness Hallucinations -- events of severe deviations of LLMs responses from input contexts. We focus on a specific implementation of these LLM errors, {confabulations, defined as responses that are arbitrary and semantically misaligned with the user's query. Existing methods like Semantic Entropy test for arbitrariness by measuring the diversity of answers to a single, fixed prompt. Our SDM framework improves upon this by being more prompt-aware: we test for a deeper form of arbitrariness by measuring response consistency not only across multiple answers but also across multiple, semantically-equivalent paraphrases of the original prompt. Methodologically, our approach uses joint clustering on sentence embeddings to create a shared topic space for prompts and answers. A heatmap of topic co-occurances between prompts and responses can be viewed as a quantified two-dimensional visualization of the user-machine dialogue. We then compute a suite of information-theoretic metrics to measure the semantic divergence between prompts and responses. Our practical score, $\mathcal{S}_H$, combines the Jensen-Shannon divergence and Wasserstein distance to quantify this divergence, with a high score indicating a Faithfulness hallucination. Furthermore, we identify the KL divergence KL(Answer $||$ Prompt) as a powerful indicator of \textbf{Semantic Exploration}, a key signal for distinguishing different generative behaviors. These metrics are further combined into the Semantic Box, a diagnostic framework for classifying LLM response types, including the dangerous, confident confabulation.
- Abstract(参考訳): LLM(Large Language Models)の拡散は、非現実的、非感覚的、あるいは不誠実なテキストを生成する、幻覚、致命的な失敗モードによって挑戦される。
本稿では,SDM(Semantic Divergence Metrics)について紹介する。
我々は、これらのLCMエラーの特定の実装である {confabulations" に注目し、ユーザのクエリと任意で意味的に一致しない応答として定義する。
セマンティックエントロピーテストのような既存の手法は、一つの固定されたプロンプトに対する答えの多様性を測定することによって任意性をテストする。
我々は、複数の答えだけでなく、元のプロンプトの複数の意味論的に等価なパラフレーズにわたって応答の一貫性を測定することによって、より深い形の仲裁性をテストする。
提案手法では,文の埋め込みに共同クラスタリングを用いて,プロンプトと回答のための共有トピック空間を作成する。
プロンプトと応答間のトピック共起のヒートマップは、ユーザとマシンの対話の定量的な2次元可視化と見なすことができる。
次に、情報理論の一連のメトリクスを計算し、プロンプトと応答のセマンティックなばらつきを測定する。
我々の実践的スコアである$\mathcal{S}_H$は、ジェンセン=シャノンの発散とワッサーシュタイン距離を組み合わせてこの発散を定量化し、高得点は忠実な幻覚を示す。
さらに、KLの発散KL(Answer $|$ Prompt)を、異なる生成挙動を識別するためのキーシグナルである \textbf{Semantic Exploration} の強力な指標として同定する。
これらのメトリクスは、危険で確実なコミュニケーションを含むLSM応答タイプを分類するための診断フレームワークであるSemantic Boxにさらに統合される。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation [5.259846811078731]
我々は、明確化のためのあいまいさの概念に注目し、明確化プロセスにおいてあいまいさをモデル化し統合することを模索する。
我々はこの新しいプロンプトスキームをAmbiguity Type-Chain of Thought (AT-CoT)と名付けた。
論文 参考訳(メタデータ) (2025-04-16T14:21:02Z) - DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection [45.56930979807214]
クラスに依存しないオブジェクト検出は、多くの下流の視覚タスクにおいて、基盤となるかボトルネックとなる可能性がある。
本研究では、視覚言語モデルを用いて、自己教師付きプロンプト学習戦略による物体検出を強化する。
我々は,MS-COCO および LVIS におけるDiPEx の有効性を,クラス依存型OD および OOD-OD 実験により実証した。
論文 参考訳(メタデータ) (2024-06-21T07:33:37Z) - QLSC: A Query Latent Semantic Calibrator for Robust Extractive Question Answering [32.436530949623155]
クエリの潜在セマンティックセンターの特徴を捉えるために,ユニークなスケーリング戦略を提案する。
これらの機能は、従来のクエリとパスの埋め込みにシームレスに統合されます。
提案手法は,テキスト形式の変化に対する感度を低下させ,正確な回答をピンポイントするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-04-30T07:34:42Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-03-30T17:40:30Z) - Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。
係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T17:27:31Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。