論文の概要: Luna: An Evaluation Foundation Model to Catch Language Model Hallucinations with High Accuracy and Low Cost
- arxiv url: http://arxiv.org/abs/2406.00975v1
- Date: Mon, 3 Jun 2024 04:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:37:18.743052
- Title: Luna: An Evaluation Foundation Model to Catch Language Model Hallucinations with High Accuracy and Low Cost
- Title(参考訳): Luna: 高精度で低コストな言語モデル幻覚をキャッチするための評価基礎モデル
- Authors: Masha Belyi, Robert Friel, Shuai Shao, Atindriyo Sanyal,
- Abstract要約: Retriever Augmented Generation (RAG) システムは,言語モデルの能力向上に重要な役割を担っている。
現在の幻覚検出技術は、精度、低レイテンシ、低コストを同時に提供できない。
本稿では,RAG設定における幻覚検出のためのLuna: a DeBERTA-large (440M)エンコーダについて紹介する。
- 参考スコア(独自算出の注目度): 1.9228454602072242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retriever Augmented Generation (RAG) systems have become pivotal in enhancing the capabilities of language models by incorporating external knowledge retrieval mechanisms. However, a significant challenge in deploying these systems in industry applications is the detection and mitigation of hallucinations: instances where the model generates information that is not grounded in the retrieved context. Addressing this issue is crucial for ensuring the reliability and accuracy of responses generated by large language models (LLMs) in diverse industry settings. Current hallucination detection techniques fail to deliver accuracy, low latency, and low cost simultaneously. We introduce Luna: a DeBERTA-large (440M) encoder, finetuned for hallucination detection in RAG settings. We demonstrate that Luna outperforms GPT-3.5 and commercial evaluation frameworks on the hallucination detection task, with 97% and 96% reduction in cost and latency, respectively. Luna is lightweight and generalizes across multiple industry verticals and out-of-domain data, making it an ideal candidate for industry LLM applications.
- Abstract(参考訳): Retriever Augmented Generation (RAG) システムは,外部知識検索機構を組み込むことで,言語モデルの能力向上に重要な役割を担っている。
しかし、これらのシステムを業界アプリケーションに展開する上で重要な課題は幻覚の検出と緩和である。
この問題に対処することは、様々な業界環境で大きな言語モデル(LLM)が生み出す応答の信頼性と正確性を保証するために不可欠である。
現在の幻覚検出技術は、精度、低レイテンシ、低コストを同時に提供できない。
本稿では,RAG設定における幻覚検出のためのLuna: a DeBERTA-large (440M)エンコーダについて紹介する。
その結果,Luna は幻覚検出タスクにおいて GPT-3.5 と商用評価フレームワークを上回り,97% と 96% のコスト削減と遅延削減を実現している。
Lunaは軽量で、複数の業界分野とドメイン外データにまたがって一般化されており、業界LLMアプリケーションにとって理想的な候補となっている。
関連論文リスト
- REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models [15.380441563675243]
大規模言語モデル(LLM)における幻覚は、質問応答のような知識集約的なタスクにおいて、その信頼性を著しく制限する。
本稿では, 抽出した文書を直接利用して, LLM出力内のハロゲン化スパンを検出する新しいフレームワークREFINDを紹介する。
REFINDは低リソース設定を含む9つの言語で堅牢性を示し、ベースラインモデルではかなり優れていた。
論文 参考訳(メタデータ) (2025-02-19T10:59:05Z) - VERITAS: A Unified Approach to Reliability Evaluation [26.051109586419308]
大規模言語モデル(LLM)は、しばしばコンテキストから情報を合成して正確な応答を生成するのに失敗する。
VERITASは様々な文脈で柔軟に動作するように設計された幻覚検出モデルのファミリーである。
論文 参考訳(メタデータ) (2024-11-05T17:53:25Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - Developing a Reliable, General-Purpose Hallucination Detection and Mitigation Service: Insights and Lessons Learned [36.216938133315786]
大型言語モデル(LLM)における幻覚の発見と修正を目的とした信頼性の高い高速生産システムを提案する。
我々のシステムは、名前付きエンティティ認識(NER)、自然言語推論(NLI)、スパンベース検出(SBD)を含む。
フレームワークの中核となる要素を詳述し、応答時間、可用性、パフォーマンスメトリクスに関連する最重要課題を過小評価します。
論文 参考訳(メタデータ) (2024-07-22T07:48:30Z) - Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector [114.88975874411142]
幻覚検出は大規模言語モデル(LLM)にとって難しい課題である
本稿では,HluAgentと呼ばれる自律型LLMエージェントフレームワークを提案する。
HaluAgentでは、LLM、多機能ツールボックスを統合し、きめ細かい3段階検出フレームワークを設計する。
論文 参考訳(メタデータ) (2024-06-17T07:30:05Z) - HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination
Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす
本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。
フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文 参考訳(メタデータ) (2024-02-25T22:23:37Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。