論文の概要: LettuceDetect: A Hallucination Detection Framework for RAG Applications
- arxiv url: http://arxiv.org/abs/2502.17125v1
- Date: Mon, 24 Feb 2025 13:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:17.730079
- Title: LettuceDetect: A Hallucination Detection Framework for RAG Applications
- Title(参考訳): LettuceDetect: RAGアプリケーションのための幻覚検出フレームワーク
- Authors: Ádám Kovács, Gábor Recski,
- Abstract要約: Retrieval Augmented Generation (RAG) システムは、外部知識源を取り入れたとしても、幻覚応答に弱いままである。
本稿では,既存の幻覚検出法における2つの限界に対処するフレームワークであるLettuceDetectを提案する。
ModernBERTの拡張コンテキスト機能(最大8kトークン)に基づいて構築し、RAGTruthベンチマークデータセットでトレーニングします。
提案手法は,従来のエンコーダベースモデルや最もプロンプトベースモデルよりも優れており,最良モデルよりも約30倍小さい。
- 参考スコア(独自算出の注目度): 2.4830926411920315
- License:
- Abstract: Retrieval Augmented Generation (RAG) systems remain vulnerable to hallucinated answers despite incorporating external knowledge sources. We present LettuceDetect a framework that addresses two critical limitations in existing hallucination detection methods: (1) the context window constraints of traditional encoder-based methods, and (2) the computational inefficiency of LLM based approaches. Building on ModernBERT's extended context capabilities (up to 8k tokens) and trained on the RAGTruth benchmark dataset, our approach outperforms all previous encoder-based models and most prompt-based models, while being approximately 30 times smaller than the best models. LettuceDetect is a token-classification model that processes context-question-answer triples, allowing for the identification of unsupported claims at the token level. Evaluations on the RAGTruth corpus demonstrate an F1 score of 79.22% for example-level detection, which is a 14.8% improvement over Luna, the previous state-of-the-art encoder-based architecture. Additionally, the system can process 30 to 60 examples per second on a single GPU, making it more practical for real-world RAG applications.
- Abstract(参考訳): Retrieval Augmented Generation (RAG) システムは、外部知識源を取り入れたとしても、幻覚応答に弱いままである。
本稿では,既存の幻覚検出手法における2つの重要な制約に対処するフレームワークであるLettuceDetectについて述べる。
ModernBERTの拡張コンテキスト機能(最大8kトークン)に基づいて、RAGTruthベンチマークデータセットに基づいてトレーニングを行い、我々のアプローチは、すべてのエンコーダベースのモデルと最もプロンプトベースのモデルより優れており、最高のモデルより約30倍小さい。
LettuceDetectはトークン分類モデルで、コンテキスト-クエスト・アンサートリプルを処理し、トークンレベルでサポート対象のクレームの識別を可能にする。
RAGTruthコーパスの評価によると、F1スコアは79.22%で、従来の最先端エンコーダベースのアーキテクチャであるLunaよりも14.8%改善されている。
さらに、システムは1つのGPUで毎秒30から60個のサンプルを処理できるため、現実世界のRAGアプリケーションではより実用的になる。
関連論文リスト
- TOPLOC: A Locality Sensitive Hashing Scheme for Trustless Verifiable Inference [0.0]
大規模言語モデル(LLM)は非常に有能であることが証明されているが、現在の最高のモデルへのアクセスは、信頼の難しさをもたらす推論プロバイダに依存している。
本研究では,この問題に対処する検証可能な新しい手法であるTOPLOCを提案する。
論文 参考訳(メタデータ) (2025-01-27T12:46:45Z) - Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection [68.26282316080558]
現在のオープンワールド検出器は、限られたカテゴリーで訓練されているにもかかわらず、より広い範囲の語彙を認識することができる。
本稿では,多語彙オブジェクト検出のためのプロトタイプ分類器Provaを紹介する。
論文 参考訳(メタデータ) (2024-12-23T18:57:43Z) - Unfolding Target Detection with State Space Model [8.493729039825332]
本稿では,CFAR検出器を状態空間モデルアーキテクチャに展開することにより,信号処理とディープラーニングを組み合わせた新しい手法を提案する。
CFARパイプラインを保存し、洗練された構成をトレーニング可能なパラメータにすることで、手動パラメータチューニングなしで高い検出性能を実現する。
その結果,提案手法の顕著な性能,CFARとその変種を検出率と誤警報率で10倍に向上させることができた。
論文 参考訳(メタデータ) (2024-10-30T07:43:18Z) - Improved Out-of-Scope Intent Classification with Dual Encoding and Threshold-based Re-Classification [6.975902383951604]
現在の手法は、予測不可能なアウトリーチ分布で困難に直面している。
本稿では,これらの課題に対処するため,Dual for Threshold-Based Re-Classification (DETER)を提案する。
我々のモデルは以前のベンチマークより優れており、未知のインテントに対するF1スコアの13%と5%に向上しています。
論文 参考訳(メタデータ) (2024-05-30T11:46:42Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - The EarlyBIRD Catches the Bug: On Exploiting Early Layers of Encoder
Models for More Efficient Code Classification [7.205265729540538]
深層NLPモデルの訓練には、かなりの計算資源が必要である。
本稿では,事前学習したトランスフォーマーモデルの初期層から,コードの合成表現を構築するための一般的なアプローチであるEarlyBIRDを提案する。
論文 参考訳(メタデータ) (2023-05-08T16:47:28Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。