論文の概要: HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.00880v1
- Date: Wed, 01 Oct 2025 13:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.579668
- Title: HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation
- Title(参考訳): HalluGuard: 検索・拡張世代における幻覚を緩和するための証拠収集型小さな推論モデル
- Authors: Loris Bergeron, Ioana Buhnila, Jérôme François, Radu State,
- Abstract要約: 検索・拡張世代(RAG)における幻覚の緩和のための小型推論モデル(SRM)であるHaluGuardを提案する。
HalluGuard は文書定義ペアを、根拠付きまたは幻覚化されたものとして分類し、透明性のための証拠に基づく正当化を生成する。
受け入れ次第、HaluGuardとデータセットをApache 2.0でリリースします。
- 参考スコア(独自算出の注目度): 1.502611022251643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel in many NLP tasks but remain prone to hallucinations, limiting trust in real-world applications. We present HalluGuard, a 4B-parameter Small Reasoning Model (SRM) for mitigating hallucinations in Retrieval-Augmented Generation (RAG). HalluGuard classifies document-claim pairs as grounded or hallucinated and produces evidence-grounded justifications for transparency. Our approach combines (i) a domain-agnostic synthetic dataset derived from FineWeb and refined through multi-stage curation and data reformation, (ii) synthetic grounded and hallucinated claims, and (iii) preference-based fine-tuning with Odds Ratio Preference Optimization to distill large-model reasoning into a smaller backbone. On the RAGTruth subset of the LLM-AggreFact benchmark, HalluGuard achieves 84.0% balanced accuracy (BAcc), rivaling specialized models, MiniCheck (7B; 84.0%) and Granite Guardian 3.3 (8B; 82.2%) while using roughly half their parameters. Over the full benchmark it reaches 75.7% BAcc, matching larger general-purpose LLMs such as GPT-4o (75.9%). We will release HalluGuard and datasets under Apache 2.0 upon acceptance.
- Abstract(参考訳): LLM(Large Language Models)は多くのNLPタスクに優れていますが、幻覚の傾向があり、現実世界のアプリケーションに対する信頼が制限されます。
本稿では,4Bパラメータ小共振モデル(SRM)であるHaluGuardについて述べる。
HalluGuard は文書定義ペアを、根拠付きまたは幻覚化されたものとして分類し、透明性のための証拠に基づく正当化を生成する。
私たちのアプローチは組み合わさる
一 ファインウェブから派生し、多段階のキュレーション及びデータ改質により精錬したドメインに依存しない合成データセット
二 合成接地及び幻覚クレーム及び
3) Odds Ratio Preference Optimization を用いた好みに基づく微調整により, 大モデル推論を小さいバックボーンに蒸留する。
LLM-AggreFactベンチマークのRAGTruthサブセットでは、約半分のパラメータを使用しながら84.0%のバランス精度(BAcc)、競合する特殊モデル、MiniCheck (7B; 84.0%)、Granite Guardian 3.3 (8B; 82.2%)を達成している。
完全なベンチマークでは75.7%のBAccに達し、GPT-4o (75.9%)のようなより大きな汎用LLMと一致する。
受け入れ次第、HaluGuardとデータセットをApache 2.0でリリースします。
関連論文リスト
- HalluDetect: Detecting, Mitigating, and Benchmarking Hallucinations in Conversational Systems [28.691566712713808]
大規模言語モデル(LLM)は、業界で広く使われているが、幻覚の傾向が強く、重要なアプリケーションにおける信頼性を制限している。
本研究は,LLaMA 3.1 8B Instructを用いて構築したコンシューマーグリーバンスチャットボットの幻覚低減について述べる。
我々は,LLMに基づく幻覚検出システムであるHaluDetectを開発し,F1スコアが69%,ベースライン検出器が25.44%向上した。
論文 参考訳(メタデータ) (2025-09-15T06:23:36Z) - Weights-Rotated Preference Optimization for Large Language Models [30.25242193651982]
本稿では,DPO から受け継いだ KL 発散量に対して,出力層ロジットを暗黙的に制約する,新しい重み付き優先度最適化 (RoPO) アルゴリズムを提案する。
我々の RoPO は AlpacaEval 2 の 3.27 点改善を実現し,トレーニング可能なパラメータの 0.015% を MT-Bench の 6.2 から 7.5 点 で上回っている。
論文 参考訳(メタデータ) (2025-08-25T03:57:17Z) - RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness [102.06442250444618]
RLAIF-Vは,MLLMを完全なオープンソースパラダイムで整列させる新しいフレームワークである。
RLAIF-Vは、高品質なフィードバックデータ生成を含む2つの観点から、オープンソースのMLLMを最大限に探求する。
RLAIF-Vは、自動評価と人的評価の両方で6つのベンチマーク実験を行い、モデルの信頼性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。