論文の概要: HalluMix: A Task-Agnostic, Multi-Domain Benchmark for Real-World Hallucination Detection
- arxiv url: http://arxiv.org/abs/2505.00506v1
- Date: Thu, 01 May 2025 13:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.308509
- Title: HalluMix: A Task-Agnostic, Multi-Domain Benchmark for Real-World Hallucination Detection
- Title(参考訳): HalluMix: 実世界の幻覚検出のためのタスクに依存しないマルチドメインベンチマーク
- Authors: Deanna Emery, Michael Goitia, Freddie Vargus, Iulia Neagu,
- Abstract要約: 本稿では,オープンかつクローズドソースの両面から幻覚検出システムを評価するために,ベンチマークをどのように利用できるかを示す。
本ベンチマークを用いて,幻覚検出システムの7つの実装をオープンソースおよびクローズドソースで評価した。
Reval Augmented Reval Detectionsは、F1スコアが0.84の精度で、全体的なパフォーマンスが最高である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in high-stakes domains, detecting hallucinated content$\unicode{x2013}$text that is not grounded in supporting evidence$\unicode{x2013}$has become a critical challenge. Existing benchmarks for hallucination detection are often synthetically generated, narrowly focused on extractive question answering, and fail to capture the complexity of real-world scenarios involving multi-document contexts and full-sentence outputs. We introduce the HalluMix Benchmark, a diverse, task-agnostic dataset that includes examples from a range of domains and formats. Using this benchmark, we evaluate seven hallucination detection systems$\unicode{x2013}$both open and closed source$\unicode{x2013}$highlighting differences in performance across tasks, document lengths, and input representations. Our analysis highlights substantial performance disparities between short and long contexts, with critical implications for real-world Retrieval Augmented Generation (RAG) implementations. Quotient Detections achieves the best overall performance, with an accuracy of 0.82 and an F1 score of 0.84.
- Abstract(参考訳): 大規模言語モデル(LLM)がハイテイクなドメインにますますデプロイされるにつれて、実証を根拠にしない幻覚的コンテンツ$\unicode{x2013}$textが重要な課題となる。
既存の幻覚検出のベンチマークは、しばしば合成的に生成され、抽出された質問応答に焦点が当てられ、多文書コンテキストと全文出力を含む実世界のシナリオの複雑さを捉えることができない。
HalluMix Benchmarkは多様なタスクに依存しないデータセットで、さまざまなドメインやフォーマットの例を含む。
このベンチマークを用いて、7つの幻覚検出システム$\unicode{x2013}$both open and closed source$\unicode{x2013}$highlighting difference in performance across task, document lengths and input representations。
本分析では, 短所と短所間の性能格差が顕著であり, 現実の検索拡張生成(RAG)の実装に重要な意味を持つ。
Quotient Detectionsは、精度0.82、F1スコア0.84の総合的なパフォーマンスを達成する。
関連論文リスト
- ShED-HD: A Shannon Entropy Distribution Framework for Lightweight Hallucination Detection on Edge Devices [2.193668764461763]
大規模言語モデル(Ms.LS)は、幅広いタスクにおいて印象的な能力を示してきたが、幻覚を生み出す傾向にある。
本稿では,特徴的不確実性パターンを効率的に検出する新しい幻覚検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-23T23:47:26Z) - HalluCounter: Reference-free LLM Hallucination Detection in the Wild! [6.5037356041929675]
HalluCounterは、応答応答とクエリ応答の整合性とアライメントパターンの両方を利用する参照なし幻覚検出手法である。
我々の手法は最先端の手法よりもかなり優れており、データセット間での幻覚検出における平均信頼度は90%を超えている。
論文 参考訳(メタデータ) (2025-03-06T16:59:18Z) - CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base [29.477973983931083]
LVLM出力の幻覚を検出する軽量でトレーニング不要なフレームワークであるCutPaste&Findを提案する。
私たちのフレームワークの中核は、リッチなエンティティ属性関係と関連するイメージ表現をエンコードするビジュアルエイドの知識ベースです。
類似度スコアを改良するスケーリング係数を導入し, 地中画像とテキストのペアであっても, 最適下アライメントの問題を緩和する。
論文 参考訳(メタデータ) (2025-02-18T07:06:36Z) - Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models [58.952782707682815]
COFTは、異なるレベルのキーテキストにフォーカスする新しい方法であり、長いコンテキストで失われることを避ける。
知識幻覚ベンチマークの実験ではCOFTの有効性が示され、F1スコアの30%以上の性能が向上した。
論文 参考訳(メタデータ) (2024-10-19T13:59:48Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Cost-Effective Hallucination Detection for LLMs [11.58436181159839]
大規模な言語モデル(LLM)は幻覚を起こす傾向があり、入力、外部事実、あるいは内部的矛盾に反する信頼できない出力を生成する。
幻覚検出のためのパイプラインでは,まず,生成した回答が幻覚である可能性を示す信頼スコアを生成し,第2に,入力の属性と候補応答に基づいてスコア条件を調整し,第3に,スコアを閾値付けして検出を行う。
論文 参考訳(メタデータ) (2024-07-31T08:19:06Z) - CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models [19.209135063841895]
本研究は,マルチモーダル基礎モデルの基準自由幻覚ランキングであるCrossCheckGPTを提案する。
CrossCheckGPTの中核となる考え方は、異なる独立したシステムによって同じ幻覚コンテンツが生成される可能性は低いということである。
本手法の適用性について,テキスト,画像,音声視覚領域など,様々な形態の幻覚のランク付けについて紹介する。
論文 参考訳(メタデータ) (2024-05-22T14:25:41Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。