論文の概要: HALT-RAG: A Task-Adaptable Framework for Hallucination Detection with Calibrated NLI Ensembles and Abstention
- arxiv url: http://arxiv.org/abs/2509.07475v1
- Date: Tue, 09 Sep 2025 07:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.218583
- Title: HALT-RAG: A Task-Adaptable Framework for Hallucination Detection with Calibrated NLI Ensembles and Abstention
- Title(参考訳): HALT-RAG: Calibrated NLI Ensembles and Abstention を用いた幻覚検出のためのタスク適応型フレームワーク
- Authors: Saumya Goswami, Siddharth Kurra,
- Abstract要約: HALT-RAGは、Retrieval-Augmented Generationパイプラインの出力における幻覚を特定するために設計されたポストホック検証システムである。
我々のフレキシブルでタスク適応性のあるフレームワークは、2つのフリーズ・オフ・ザ・シェルフ自然言語推論(NLI)モデルと軽量語彙信号のアンサンブルから導かれる普遍的な特徴セットを使用する。
HALT-RAGは軽量・タスク適応型・高精度制約型決定ポリシーと組み合わせることで,要約,QA,対話における強いOOF F1スコア0.7756,0.9786,0.7391を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting content that contradicts or is unsupported by a given source text is a critical challenge for the safe deployment of generative language models. We introduce HALT-RAG, a post-hoc verification system designed to identify hallucinations in the outputs of Retrieval-Augmented Generation (RAG) pipelines. Our flexible and task-adaptable framework uses a universal feature set derived from an ensemble of two frozen, off-the-shelf Natural Language Inference (NLI) models and lightweight lexical signals. These features are used to train a simple, calibrated, and task-adapted meta-classifier. Using a rigorous 5-fold out-of-fold (OOF) training protocol to prevent data leakage and produce unbiased estimates, we evaluate our system on the HaluEval benchmark. By pairing our universal feature set with a lightweight, task-adapted classifier and a precision-constrained decision policy, HALT-RAG achieves strong OOF F1-scores of 0.7756, 0.9786, and 0.7391 on the summarization, QA, and dialogue tasks, respectively. The system's well-calibrated probabilities enable a practical abstention mechanism, providing a reliable tool for balancing model performance with safety requirements.
- Abstract(参考訳): ソーステキストに矛盾したり、サポートされていないコンテンツを検出することは、生成言語モデルの安全なデプロイにとって重要な課題である。
本稿では,HLT-RAG(Retrieval-Augmented Generation(RAG)パイプラインの出力における幻覚を識別するポストホック検証システム)を紹介する。
我々のフレキシブルでタスク適応性のあるフレームワークは、2つのフリーズ・オフ・ザ・シェルフ自然言語推論(NLI)モデルと軽量語彙信号のアンサンブルから導かれる普遍的な特徴セットを使用する。
これらの機能は、シンプルで、校正され、タスク対応のメタ分類器を訓練するために使用される。
厳密な5倍アウト・オブ・フォールド(OOF)トレーニングプロトコルを用いて,データの漏洩を防止し,不偏推定を生成する。
HALT-RAGは軽量なタスク適応型分類器と精度制約付き決定ポリシーを組み合わせることで,要約,QA,対話タスクにおいて,それぞれ0.7756,0.9786,0.7391の強いOOF F1スコアを達成する。
システムのよく校正された確率は、モデル性能と安全性要件のバランスをとるための信頼性の高いツールを提供する、実用的な禁制のメカニズムを可能にする。
関連論文リスト
- GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Reliable Few-shot Learning under Dual Noises [166.53173694689693]
そこで我々はDETA++(Denoized Task Adaptation)を提案する。
DETA++はメモリバンクを使用して、各インナータスククラスのクリーンなリージョンを格納し、精製する。
大規模な実験は、DETA++の有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2025-06-19T14:05:57Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。