論文の概要: PARALLAX: Separating Genuine Hallucination Detection from Benchmark Construction Artifacts
- arxiv url: http://arxiv.org/abs/2605.17028v1
- Date: Sat, 16 May 2026 14:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.498865
- Title: PARALLAX: Separating Genuine Hallucination Detection from Benchmark Construction Artifacts
- Title(参考訳): PARALLAX: ベンチマーク構築アーティファクトからの遺伝子幻覚検出の分離
- Authors: Khizar Hussain, Murat Kantarcioglu,
- Abstract要約: 大型言語モデル(LLM)は自信を持って幻覚する。
内部モデル状態からそれを検出することは、デプロイをより安全にするための道を提供する。
広範に使用されているベンチマークにおける高検出性能を実現するための最近の手法
この明らかな進歩の多くは、精査が生き残らないことを示している。
- 参考スコア(独自算出の注目度): 12.088141798203367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) hallucinate with confidence: their outputs can be fluent, authoritative, and simply wrong. In medical, legal, and scientific applications this failure causes direct harm, and detecting it from internal model states offers a path to safer deployment. A growing body of work reports that this problem is increasingly tractable, with recent methods achieving high detection performance on widely used benchmarks. We show, however, that much of this apparent progress does not survive scrutiny. Four of the six corpora embed the ground-truth answer directly in the input prompt. A naïve text-similarity baseline we call \textsc{TxTemb} exploits this to achieve near-perfect detection scores without any access to model internals. To measure what genuine detection capability remains once these artifacts are controlled, we conduct a large-scale evaluation spanning twenty-two detection methods, twelve open-source models spanning six architectural families, and six corpora. We further introduce \textbf{DRIFT}, a supervised probe over inter-layer hidden-state transitions, as a point of comparison for live-generation detection. Our findings suggest that the field's reported progress on hallucination detection is substantially explained by benchmark construction artifacts in widely used corpora, and that the majority of established baselines perform near chance under controlled conditions; the consistent exceptions are SAPLMA and DRIFT, both supervised probes on upper-layer hidden states.
- Abstract(参考訳): 大規模言語モデル(LLM)は自信をもって幻覚する。
医学、法学、科学の応用において、この障害は直接的な害を引き起こし、内部モデル状態からそれを検出することは、より安全な配置への道を提供する。
最近の手法では、広く使用されているベンチマークで高い検出性能を達成することができる。
しかし、この明らかな進歩の多くは、精査を生き残らないことを示している。
6つのコーパスのうち4つは、入力プロンプトに直接接地真実の答えを埋め込む。
ネーブテキスト類似性ベースラインを \textsc{TxTemb} と呼び、モデル内部にアクセスすることなくほぼ完璧な検出スコアを達成する。
これらのアーティファクトが制御されると、真の検出能力が残っているかを測定するため、我々は、22の検出方法、12のオープンソースモデル、6つのアーキテクチャーファミリ、6つのコーパスを対象とする大規模な評価を行う。
さらに, 層間隠れ状態遷移に対する教師ありプローブである「textbf{DRIFT}」を, 生世代検出との比較点として紹介する。
本研究は,広範に使用されているコーパスのベンチマーク構築アーティファクトにより,フィールドの幻覚検出の進展が著しく説明され,既設のベースラインの大部分が制御条件下でほぼ実施されていることを示し,一貫した例外はSAPLMAとDRIFTであり,どちらも上位層隠れ状態の監視プローブである。
関連論文リスト
- Sparse deepfake detection promotes better disentanglement [4.901409400999413]
スパースディープフェイク検出は,ASVSpoof5テストセット上でのEERの23.36%で検出性能が95%向上することを示した。
次に,これらの表現が相互情報に基づく完全性およびモジュラリティの指標を用いて,より不整合性を示すことを示す。
論文 参考訳(メタデータ) (2025-10-07T09:03:39Z) - Why Speech Deepfake Detectors Won't Generalize: The Limits of Detection in an Open World [11.238970239267248]
音声ディープフェイク検出器は、しばしばクリーンでベンチマークスタイルの条件で評価される。
しかしデプロイメントは、デバイスのシフト、サンプリング率、コーデック、環境、攻撃家族といったオープンな世界で発生します。
これにより、AIベースの検出器に対する"カバレッジ負債"が発生し、収集可能なデータよりも高速に成長するデータ盲点が生成される。
論文 参考訳(メタデータ) (2025-09-23T20:27:04Z) - Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - Detecting High-Stakes Interactions with Activation Probes [10.421494494629421]
そこで本論文では,対話が大きな害をもたらす可能性を示唆する「ハイテイク」相互作用を検出するためのアクティベーションプローブについて検討する。
我々は、合成データに基づいて訓練された複数のプローブアーキテクチャを評価し、それらが多種多様な分布外の実世界のデータに対して堅牢な一般化を示すことを発見した。
また,資源を意識した階層型モニタリングシステムの構築の可能性についても検討した。
論文 参考訳(メタデータ) (2025-06-12T15:20:33Z) - Unifying Unsupervised Graph-Level Anomaly Detection and Out-of-Distribution Detection: A Benchmark [73.58840254552656]
近年,非教師付きグラフレベルの異常検出(GLAD)と教師なしグラフレベルのアウト・オブ・ディストリビューション(OOD)検出が注目されている。
教師なしアンダーラインtextbfGraphレベルアンダーラインtextbfOOD と anomaunderlinetextbfLy underlinetextbfDetection (ourmethod) に対するアンダーラインtextbfUnifiedアンダーラインtextbffBenchmark を提案する。
私たちのベンチマークには35のデータセットが含まれています
論文 参考訳(メタデータ) (2024-06-21T04:07:43Z) - DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の研究は、ある特定のデータセットで検出器をトレーニングし、他の一般的なディープフェイクデータセットでテストすることで、トップノーチ検出アルゴリズムとモデルを識別する。
しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか?
我々は,40の異なるディープフェイク技術からなるDF40という,高度に多様なディープフェイク検出データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T12:35:02Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [89.92916473403108]
本稿では,新しい手法のモジュラーフレームワークであるADerの総合的な視覚異常検出ベンチマークを提案する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - SeeABLE: Soft Discrepancies and Bounded Contrastive Learning for
Exposing Deepfakes [7.553507857251396]
本研究では,検出問題を(一級)アウト・オブ・ディストリビューション検出タスクとして形式化する,SeeABLEと呼ばれる新しいディープフェイク検出器を提案する。
SeeABLEは、新しい回帰ベースの有界コントラスト損失を使用して、乱れた顔を事前定義されたプロトタイプにプッシュする。
我々のモデルは競合する最先端の検出器よりも高い性能を示しながら、高度に一般化能力を示す。
論文 参考訳(メタデータ) (2022-11-21T09:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。