論文の概要: Verify when Uncertain: Beyond Self-Consistency in Black Box Hallucination Detection
- arxiv url: http://arxiv.org/abs/2502.15845v1
- Date: Thu, 20 Feb 2025 21:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:55.824957
- Title: Verify when Uncertain: Beyond Self-Consistency in Black Box Hallucination Detection
- Title(参考訳): ブラックボックスの幻覚検出における自己整合性を超えた不確かさの検証
- Authors: Yihao Xue, Kristjan Greenewald, Youssef Mroueh, Baharan Mirzasoleiman,
- Abstract要約: 大型言語モデル(LLM)は幻覚に悩まされ、センシティブなアプリケーションにおける信頼性を損なう。
本稿では,検証モデルを一部のケースに対してのみ呼び出す,予算に優しい2段階検出アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.176984317213858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) suffer from hallucination problems, which hinder their reliability in sensitive applications. In the black-box setting, several self-consistency-based techniques have been proposed for hallucination detection. We empirically study these techniques and show that they achieve performance close to that of a supervised (still black-box) oracle, suggesting little room for improvement within this paradigm. To address this limitation, we explore cross-model consistency checking between the target model and an additional verifier LLM. With this extra information, we observe improved oracle performance compared to purely self-consistency-based methods. We then propose a budget-friendly, two-stage detection algorithm that calls the verifier model only for a subset of cases. It dynamically switches between self-consistency and cross-consistency based on an uncertainty interval of the self-consistency classifier. We provide a geometric interpretation of consistency-based hallucination detection methods through the lens of kernel mean embeddings, offering deeper theoretical insights. Extensive experiments show that this approach maintains high detection performance while significantly reducing computational cost.
- Abstract(参考訳): 大型言語モデル(LLM)は幻覚に悩まされ、センシティブなアプリケーションにおける信頼性を損なう。
ブラックボックス設定では、幻覚検出のためにいくつかの自己整合性に基づく技術が提案されている。
我々はこれらの手法を実証的に研究し、それらが監督された(まだブラックボックス)オラクルに近い性能を達成できることを示し、このパラダイムの中で改善の余地はほとんどないことを示唆する。
この制限に対処するため、対象モデルと追加の検証器LLMとの間の相互モデルの整合性チェックについて検討する。
この余分な情報により、純粋に自己整合性に基づく手法と比較して、オラクルのパフォーマンスが向上するのを観察する。
次に,検証モデルを一部のケースに対してのみ呼び出す,予算に優しい2段階検出アルゴリズムを提案する。
自己整合性分類器の不確かさ間隔に基づいて、自己整合性と相互整合性を動的に切り替える。
カーネル平均埋め込みのレンズによる一貫性に基づく幻覚検出手法の幾何学的解釈を提供し、より深い理論的洞察を提供する。
大規模な実験により、この手法は高い検出性能を維持しつつ、計算コストを大幅に削減することを示した。
関連論文リスト
- SINdex: Semantic INconsistency Index for Hallucination Detection in LLMs [2.805517909463769]
大規模言語モデル(LLM)は、さまざまなドメインにまたがってデプロイされる傾向にあるが、事実的に誤った出力を生成する傾向にある。
自動幻覚検出のための新しい,スケーラブルな不確実性に基づくセマンティッククラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T23:25:19Z) - Friend or Foe? Harnessing Controllable Overfitting for Anomaly Detection [30.77558600436759]
オーバーフィッティングは、長い間、モデルパフォーマンスに有害なものとして評価されてきた。
モデル識別能力を高めるための制御可能かつ戦略的メカニズムとしてオーバーフィッティングを再放送する。
最適化された異常検出のためにオーバーフィッティングを利用する新しいフレームワークである制御可能オーバーフィッティングに基づく異常検出(COAD)を提案する。
論文 参考訳(メタデータ) (2024-11-30T19:07:16Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - ConsistencyDet: A Robust Object Detector with a Denoising Paradigm of Consistency Model [28.193325656555803]
本稿では,物体検出を認知拡散過程として記述するための新しいフレームワークを提案する。
ConsistencyDetと呼ばれるこのフレームワークは、Consistency Modelとして知られる革新的な概念を活用している。
我々は、ConsistencyDetがパフォーマンス指標で他の最先端検出器を上回っていることを示す。
論文 参考訳(メタデータ) (2024-04-11T14:08:45Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - SAC3: Reliable Hallucination Detection in Black-Box Language Models via
Semantic-aware Cross-check Consistency [11.056236593022978]
幻覚検出は現代言語モデル(LM)の信頼性を理解するための重要なステップである
我々は,LMの自己整合性に基づく既存の検出手法を再検討し,(1)質問レベルと(2)モデルレベルの2種類の幻覚を明らかにする。
本稿では, 自己整合性チェックの原理に基づいて, セマンティック・アウェア・クロスチェック整合性(SAC3)という, サンプリングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-03T06:32:43Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Don't Miss Out on Novelty: Importance of Novel Features for Deep Anomaly
Detection [64.21963650519312]
異常検出(AD)は、正規性の学習モデルに適合しない観察を識別する重要なタスクである。
本稿では, 入力空間における説明不能な観測として, 説明可能性を用いた新しいAD手法を提案する。
当社のアプローチでは,複数のベンチマークにまたがる新たな最先端性を確立し,さまざまな異常な型を扱う。
論文 参考訳(メタデータ) (2023-10-01T21:24:05Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。