論文の概要: HalluScan: A Systematic Benchmark for Detecting and Mitigating Hallucinations in Instruction-Following LLMs
- arxiv url: http://arxiv.org/abs/2605.02443v1
- Date: Mon, 04 May 2026 10:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.243375
- Title: HalluScan: A Systematic Benchmark for Detecting and Mitigating Hallucinations in Instruction-Following LLMs
- Title(参考訳): HalluScan: LLMにおける幻覚の検出と緩和のためのシステムベンチマーク
- Authors: Ahmed Cherif,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
しかし、それらは幻覚に影響を受けやすい - 事実的に不正確で、提供されたコンテキストに反するコンテンツを生成したり、ユーザ指示に反する。
本稿では,72構成の幻覚検出と緩和を体系的に評価する総合ベンチマークフレームワークであるHaluScanを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse natural language processing tasks, yet they remain susceptible to hallucinations -- generating content that is factually incorrect, unfaithful to provided context, or misaligned with user instructions. We present HalluScan, a comprehensive benchmark framework that systematically evaluates hallucination detection and mitigation across 72 configurations spanning 6 detection methods, 4 open-weight model families, and 3 diverse domains. We introduce three key contributions: (1) HalluScore, a novel composite metric that achieves a Pearson correlation of r = 0.41 with human expert judgments; (2) Adaptive Detection Routing (ADR), an intelligent routing algorithm achieving 2.0x cost reduction with only 0.1% AUROC degradation; and (3) systematic error cascade decomposition revealing substantial variation in hallucination error types across domains. Our experiments reveal that NLI Verification achieves the highest overall AUROC of 0.88, while RAV achieves the second-highest AUROC of 0.66.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな自然言語処理タスクにまたがる顕著な能力を示してきましたが、幻覚の影響を受けやすいままです。
本稿では,6つの検出方法,4つのオープンウェイトモデルファミリ,3つのドメインにまたがる72の構成に対して,幻覚検出と緩和を体系的に評価する総合ベンチマークフレームワークであるHaluScanを提案する。
本稿では,(1)HauScore,(1)r = 0.41のピアソン相関を人的専門家の判断と達成する新しい合成計量,(2)適応検出ルーティングアルゴリズム(ADR, Adaptive Detection Routing),(2)AUROCのわずか0.1%の分解で2.0倍のコスト削減を実現したインテリジェントルーティングアルゴリズム,(3)系統的エラーカスケード分解により,ドメイン間の幻覚的エラータイプに有意なばらつきを示す。
実験の結果,NLI検証は総AUROC0.88で,RAVは0.66で2番目に高いAUROCを達成した。
関連論文リスト
- Fragile Reasoning: A Mechanistic Analysis of LLM Sensitivity to Meaning-Preserving Perturbations [2.7946918847372277]
大規模言語モデルは、数学的推論ベンチマークにおいて強い性能を示すが、意味を保存する表面摂動に対して驚くほど脆弱である。
我々は677 GSM8K問題に対して,3つのオープンウェイトLLM(Mistral-7B,Llama-3-8B,Qwen2.5-7B)を意味論的に等価な変種と組み合わせて評価した。
3つのモデルはいずれも相当な解答フリップ率(28.8%-45.1%)を示し、数字のパラフレーズは名前スワップよりも一貫して破壊的である。
論文 参考訳(メタデータ) (2026-04-02T05:30:20Z) - Automated Detection of Dosing Errors in Clinical Trial Narratives: A Multi-Modal Feature Engineering Approach with LightGBM [1.0152838128195467]
本研究では,非構造的臨床試験におけるドスリングエラーの自動検出システムを提案する。
提案手法は,従来のNLP(TF-IDF,キャラクタn-gram),密接なセマンティック埋め込み,ドメイン固有の医療パターン,トランスフォーマーベースのスコアにまたがる3,451の特徴を組み合わせたものである。
論文 参考訳(メタデータ) (2026-03-25T14:56:34Z) - The Semantic Illusion: Certified Limits of Embedding-Based Hallucination Detection in RAG Systems [0.0]
幻覚予測をRAG検出に適用し、スコアを有限サンプルカバレッジ保証付き決定セットに変換する。
分布尾レンズを用いてこの障害を分析し,NLIモデルが許容可能なAUC(0.81)を達成する一方で,「最も厳しい」幻覚は,忠実な応答と意味的に区別できないことを示した。
論文 参考訳(メタデータ) (2025-12-17T04:22:28Z) - Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92% [4.693270291878929]
大規模言語モデル(LLMs)は、流動的だがサポートされていない答え、幻覚を生み出す。
ECLIPSEは,モデルの意味エントロピーと利用可能な証拠の容量とのミスマッチとして幻覚を扱うフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T05:25:48Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。