論文の概要: HalluMat: Detecting Hallucinations in LLM-Generated Materials Science Content Through Multi-Stage Verification
- arxiv url: http://arxiv.org/abs/2512.22396v1
- Date: Fri, 26 Dec 2025 22:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.029034
- Title: HalluMat: Detecting Hallucinations in LLM-Generated Materials Science Content Through Multi-Stage Verification
- Title(参考訳): HalluMat:多段階検証によるLCM生成物質科学内容の幻覚検出
- Authors: Bhanu Prakash Vangala, Sajid Mahmud, Pawan Neupane, Joel Selvaraj, Jianlin Cheng,
- Abstract要約: HalluMatDataは幻覚検出方法を評価するためのベンチマークデータセットである。
HalluMatDetectorは多段階幻覚検出フレームワークである。
HalluMatDetectorは幻覚の検証率を30%削減する。
- 参考スコア(独自算出の注目度): 0.9490124006642771
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Artificial Intelligence (AI), particularly Large Language Models (LLMs), is transforming scientific discovery, enabling rapid knowledge generation and hypothesis formulation. However, a critical challenge is hallucination, where LLMs generate factually incorrect or misleading information, compromising research integrity. To address this, we introduce HalluMatData, a benchmark dataset for evaluating hallucination detection methods, factual consistency, and response robustness in AI-generated materials science content. Alongside this, we propose HalluMatDetector, a multi-stage hallucination detection framework that integrates intrinsic verification, multi-source retrieval, contradiction graph analysis, and metric-based assessment to detect and mitigate LLM hallucinations. Our findings reveal that hallucination levels vary significantly across materials science subdomains, with high-entropy queries exhibiting greater factual inconsistencies. By utilizing HalluMatDetector verification pipeline, we reduce hallucination rates by 30% compared to standard LLM outputs. Furthermore, we introduce the Paraphrased Hallucination Consistency Score (PHCS) to quantify inconsistencies in LLM responses across semantically equivalent queries, offering deeper insights into model reliability.
- Abstract(参考訳): 人工知能(AI)、特にLarge Language Models(LLM)は科学的発見を変革し、素早い知識生成と仮説定式化を可能にしている。
しかし、重要な課題は幻覚であり、LLMは事実的に誤りや誤解を招く情報を生成し、研究の完全性を損なう。
そこで我々は,AI生成物質科学コンテンツにおける幻覚検出方法,事実整合性,応答堅牢性を評価するためのベンチマークデータセットであるHaluMatDataを紹介する。
また,多段階の幻覚検出フレームワークであるHaluMatDetectorを提案する。
その結果,幻覚レベルは物質科学のサブドメインによって大きく異なることが判明した。
HalluMatDetector検証パイプラインを利用することで、標準的なLCM出力と比較して幻覚率を30%削減する。
さらに,Paraphrased Hallucination Consistency Score (PHCS)を導入し,LLM応答の不一致を意味論的に等価なクエリで定量化し,モデルの信頼性について深い知見を提供する。
関連論文リスト
- Bolster Hallucination Detection via Prompt-Guided Data Augmentation [33.98592618879001]
本稿では,幻覚検出のためのデータ拡張として,prompt-guided Data Augmented haLlucination dEtection (PALE)を導入した。
このフレームワークは、プロンプトガイダンスの下で、真理と幻覚の両方のデータを比較的低コストで生成することができる。
実験では、PALEは優れた幻覚検出性能を達成し、競争ベースラインを6.55%で上回った。
論文 参考訳(メタデータ) (2025-10-13T02:06:15Z) - Large Language Models Hallucination: A Comprehensive Survey [3.8100688074986095]
大規模言語モデル(LLM)は自然言語処理を変革し、様々なタスクで優れたパフォーマンスを実現している。
派手な派手さは、しばしば幻覚(幻覚)として知られる偽情報や偽情報を生み出すコストが伴う。
この調査は、LSMにおける幻覚の研究を包括的にレビューし、原因、検出、緩和に焦点を当てている。
論文 参考訳(メタデータ) (2025-10-05T20:26:38Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Rowen: Adaptive Retrieval-Augmented Generation for Hallucination Mitigation in LLMs [88.75700174889538]
幻覚は大きな言語モデル(LLM)にとって大きな課題となる。
実物生成におけるパラメトリック知識の利用は, LLMの限られた知識によって制限される。
本稿では,幻覚出力に対応する適応的検索拡張プロセスによりLLMを強化する新しいフレームワークであるRowenについて述べる。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。