論文の概要: Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training
- arxiv url: http://arxiv.org/abs/2410.15460v1
- Date: Sun, 20 Oct 2024 18:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:25.646856
- Title: Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training
- Title(参考訳): 幻覚デトックス:大言語モデルトレーニングのための感性ニューロン投下(SeND)
- Authors: Shahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi,
- Abstract要約: 本研究は,幻覚の緩和を目的としたトレーニングプロトコルであるSensitive Neuron Dropout (SeND)を紹介する。
さらに,従来のEigenScoreを2倍の速度で近似する,教師なし幻覚検出尺度であるEfficient EigenScore(EES)を開発した。
- 参考スコア(独自算出の注目度): 7.726825072908519
- License:
- Abstract: As large language models (LLMs) become increasingly deployed across various industries, concerns regarding their reliability, particularly due to hallucinations-outputs that are factually inaccurate or irrelevant to user input-have grown. Our research investigates the relationship between the training process and the emergence of hallucinations to address a key gap in existing research that focuses primarily on post hoc detection and mitigation strategies. Using models from the Pythia suite (70M-12B parameters) and several hallucination detection metrics, we analyze hallucination trends throughout training and explore LLM internal dynamics. We introduce SEnsitive Neuron Dropout (SeND), a novel training protocol designed to mitigate hallucinations by reducing variance during training. SeND achieves this by deterministically dropping neurons with significant variability on a dataset, referred to as Sensitive Neurons. In addition, we develop an unsupervised hallucination detection metric, Efficient EigenScore (EES), which approximates the traditional EigenScore in 2x speed. This efficient metric is integrated into our protocol, allowing SeND to be both computationally scalable and effective at reducing hallucinations. Our empirical evaluation demonstrates that our approach improves LLM reliability at test time by up to 40% compared to normal training while also providing an efficient method to improve factual accuracy when adapting LLMs to domains such as Wikipedia and Medical datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)が様々な産業に普及するにつれて、その信頼性に関する懸念、特にユーザ入力の事実的不正確な、あるいは無関係な幻覚出力が増大している。
本研究は, 訓練過程と幻覚の出現との関係を考察し, ポストホック検出と緩和戦略に焦点をあてた既存研究における重要なギャップに対処するものである。
Pythiaスイート(70M-12Bパラメータ)といくつかの幻覚検出指標のモデルを用いて、トレーニング全体を通して幻覚の傾向を分析し、LLMの内部ダイナミクスを探索する。
本研究は,幻覚の緩和を目的としたトレーニングプロトコルであるSensitive Neuron Dropout (SeND)を紹介する。
SeNDは、知覚ニューロン(Sensitive Neurons)と呼ばれるデータセットに大きな可変性を持つ神経細胞を決定的にドロップすることでこれを達成している。
さらに,従来のEigenScoreを2倍の速度で近似する,教師なし幻覚検出尺度であるEfficient EigenScore(EES)を開発した。
この効率のよいメトリックは我々のプロトコルに統合され、SeNDは計算能力が高く、幻覚を減らすのに効果的である。
実験により,本手法は,通常のトレーニングに比べてテスト時のLLM信頼性を最大40%向上させるとともに,Wikipediaやメディカルデータセットなどの領域にLLMを適用する際の現実的精度を向上させるための効率的な方法を提供する。
関連論文リスト
- REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models [15.380441563675243]
大規模言語モデル(LLM)における幻覚は、質問応答のような知識集約的なタスクにおいて、その信頼性を著しく制限する。
本稿では, 抽出した文書を直接利用して, LLM出力内のハロゲン化スパンを検出する新しいフレームワークREFINDを紹介する。
REFINDは低リソース設定を含む9つの言語で堅牢性を示し、ベースラインモデルではかなり優れていた。
論文 参考訳(メタデータ) (2025-02-19T10:59:05Z) - Smoothing Out Hallucinations: Mitigating LLM Hallucination with Smoothed Knowledge Distillation [5.9079338934481225]
我々は知識蒸留(KD)による幻覚の緩和を提案する。
KDは学生モデルにスムーズなソフトラベルを提供し、自信過剰を減らし、事実的根拠を改善する。
要約ベンチマークの実験結果から、KDは標準的な微調整に比べて幻覚を減少させることが示された。
論文 参考訳(メタデータ) (2025-02-16T23:05:36Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Mitigating Hallucinations in Large Vision-Language Models with Internal Fact-based Contrastive Decoding [5.424048651554831]
内部Fact-based Contrastive Decoding (IFCD)は、大規模視覚言語モデル(LVLM)の推論過程における幻覚の緩和と抑制を目的としている。
IFCDはLVLMの出力を校正し、最終予測から幻覚ロジットを効果的に除去する。
実験の結果, IFCD はPOPE では平均9% の精度向上, MME では8% の精度向上を実現し, オブジェクトレベルの幻覚と属性レベルの幻覚の両方を著しく軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-03T05:08:35Z) - The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM's Internal States [0.5573267589690007]
我々は、トレーニングで使われていない情報を含む幻覚に焦点を当て、それは、カットオフ後の情報を確実にするために、正確性を用いて決定する。
本研究では,様々な言語モデルの内部状態を用いて,これらの幻覚を文レベルで検出する。
以上の結果から,IAVはCEVと同じくらい効果的に幻覚を検知し,解答可能なプロンプトと解答不能なプロンプトは別個の分類器としてコード化されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-12-22T15:08:24Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。