論文の概要: SAFE: A Sparse Autoencoder-Based Framework for Robust Query Enrichment and Hallucination Mitigation in LLMs
- arxiv url: http://arxiv.org/abs/2503.03032v1
- Date: Tue, 04 Mar 2025 22:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:44.694839
- Title: SAFE: A Sparse Autoencoder-Based Framework for Robust Query Enrichment and Hallucination Mitigation in LLMs
- Title(参考訳): SAFE: LLMにおけるロバストクエリエンリッチメントと幻覚軽減のためのスパースオートエンコーダベースのフレームワーク
- Authors: Samir Abdaljalil, Filippo Pallucchini, Andrea Seveso, Hasan Kurban, Fabio Mercorio, Erchin Serpedin,
- Abstract要約: スパースオートエンコーダ(SAE)を利用した幻覚の検出・緩和手法SAFEを提案する。
実証的な結果は、SAFEがクエリ生成の精度を一貫して改善し、すべてのデータセットで幻覚を緩和し、最大29.45%の精度向上を実現していることを示している。
- 参考スコア(独自算出の注目度): 12.12344696058016
- License:
- Abstract: Despite the state-of-the-art performance of Large Language Models (LLMs), these models often suffer from hallucinations, which can undermine their performance in critical applications. In this work, we propose SAFE, a novel method for detecting and mitigating hallucinations by leveraging Sparse Autoencoders (SAEs). While hallucination detection techniques and SAEs have been explored independently, their synergistic application in a comprehensive system, particularly for hallucination-aware query enrichment, has not been fully investigated. To validate the effectiveness of SAFE, we evaluate it on two models with available SAEs across three diverse cross-domain datasets designed to assess hallucination problems. Empirical results demonstrate that SAFE consistently improves query generation accuracy and mitigates hallucinations across all datasets, achieving accuracy improvements of up to 29.45%.
- Abstract(参考訳): LLM(Large Language Models)の最先端性能にもかかわらず、これらのモデルはしばしば幻覚に悩まされ、重要な応用においてその性能を損なう可能性がある。
本研究では,スパースオートエンコーダ(SAE)を利用した幻覚の検出・緩和手法であるSAFEを提案する。
幻覚検出技術とSAEは独立して研究されているが、その総合システムにおける相乗的応用、特に幻覚認識クエリエンリッチメントについては、完全には研究されていない。
SAFEの有効性を検証するため,幻覚的問題を評価するために設計された3つのクロスドメインデータセットに対して,利用可能なSAEを持つ2つのモデルを用いて評価を行った。
実証的な結果は、SAFEがクエリ生成の精度を一貫して改善し、すべてのデータセットで幻覚を緩和し、最大29.45%の精度向上を実現していることを示している。
関連論文リスト
- HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Mitigating Hallucinations in Large Vision-Language Models with Internal Fact-based Contrastive Decoding [5.424048651554831]
内部Fact-based Contrastive Decoding (IFCD)は、大規模視覚言語モデル(LVLM)の推論過程における幻覚の緩和と抑制を目的としている。
IFCDはLVLMの出力を校正し、最終予測から幻覚ロジットを効果的に除去する。
実験の結果, IFCD はPOPE では平均9% の精度向上, MME では8% の精度向上を実現し, オブジェクトレベルの幻覚と属性レベルの幻覚の両方を著しく軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-03T05:08:35Z) - Attention-guided Self-reflection for Zero-shot Hallucination Detection in Large Language Models [20.175106988135454]
大規模言語モデル(LLM)におけるゼロショット幻覚検出のためのAGSER(Attention-Guided SElf-Reflection)アプローチを提案する。
AGSER法は注意力を利用して、入力クエリを注意クエリと非注意クエリに分類する。
幻覚を検出する効果に加えて、AGSERは計算オーバーヘッドを著しく減らし、LSMを通過する3つのトークンと2つのトークンを使用する必要がある。
論文 参考訳(メタデータ) (2025-01-17T07:30:01Z) - CHAIR -- Classifier of Hallucination as Improver [1.397828249435483]
トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
論文 参考訳(メタデータ) (2025-01-05T12:15:02Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。