論文の概要: Osiris: A Lightweight Open-Source Hallucination Detection System
- arxiv url: http://arxiv.org/abs/2505.04844v1
- Date: Wed, 07 May 2025 22:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.695766
- Title: Osiris: A Lightweight Open-Source Hallucination Detection System
- Title(参考訳): Osiris:軽量オープンソースの幻覚検出システム
- Authors: Alex Shan, John Bauer, Christopher D. Manning,
- Abstract要約: 幻覚は、RAGシステムが本番環境に配備されるのを防ぐ。
幻覚を誘発したマルチホップQAデータセットを提案する。
RAGTruth 幻覚検出ベンチマークにおいて, GPT-4o よりも 7B モデルの方が良好なリコールを実現している。
- 参考スコア(独自算出の注目度): 30.63248848082757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems have gained widespread adoption by application builders because they leverage sources of truth to enable Large Language Models (LLMs) to generate more factually sound responses. However, hallucinations, instances of LLM responses that are unfaithful to the provided context, often prevent these systems from being deployed in production environments. Current hallucination detection methods typically involve human evaluation or the use of closed-source models to review RAG system outputs for hallucinations. Both human evaluators and closed-source models suffer from scaling issues due to their high costs and slow inference speeds. In this work, we introduce a perturbed multi-hop QA dataset with induced hallucinations. Via supervised fine-tuning on our dataset, we achieve better recall with a 7B model than GPT-4o on the RAGTruth hallucination detection benchmark and offer competitive performance on precision and accuracy, all while using a fraction of the parameters. Code is released at our repository.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、言語モデル(LLM)がより現実的な音声応答を生成するのを可能にするために、真理の源を利用するアプリケーションビルダーによって広く採用されている。
しかしながら、幻覚(LLM応答の例)は、提供されたコンテキストに反するものであり、多くの場合、これらのシステムが本番環境にデプロイされるのを防ぐ。
現在の幻覚検出法は、典型的には、幻覚のためのRAGシステム出力をレビューするために、人間の評価やクローズドソースモデルの使用を含む。
人間の評価者とクローズドソースモデルの両方が、高いコストと遅い推論速度のためにスケーリングの問題に悩まされている。
本研究では,幻覚を誘発した摂動型マルチホップQAデータセットを提案する。
RAGTruth幻覚検出ベンチマークでは,GPT-4oよりも7Bモデルの方が再現性が高く,パラメータのごく一部を使用しながら,精度と精度の競争性能が向上した。
コードは私たちのリポジトリでリリースされます。
関連論文リスト
- Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Luna: An Evaluation Foundation Model to Catch Language Model Hallucinations with High Accuracy and Low Cost [1.9228454602072242]
Retriever Augmented Generation (RAG) システムは,言語モデルの能力向上に重要な役割を担っている。
現在の幻覚検出技術は、精度、低レイテンシ、低コストを同時に提供できない。
本稿では,RAG設定における幻覚検出のためのLuna: a DeBERTA-large (440M)エンコーダについて紹介する。
論文 参考訳(メタデータ) (2024-06-03T04:14:21Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。