論文の概要: Weakly Supervised Detection of Hallucinations in LLM Activations
- arxiv url: http://arxiv.org/abs/2312.02798v1
- Date: Tue, 5 Dec 2023 14:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:35:42.889684
- Title: Weakly Supervised Detection of Hallucinations in LLM Activations
- Title(参考訳): LLM活性化における幻覚の検出
- Authors: Miriam Rateike, Celia Cintas, John Wamburu, Tanya Akumu, Skyler
Speakman
- Abstract要約: 本研究では,大規模言語モデルが内部状態の幻覚を符号化するかどうかを監査する手法を提案する。
本稿では,異常パターンを検出するために,サブセットスキャンを用いた弱教師付き監査手法を提案する。
OPTは内部で幻覚情報を符号化できるが, BERTでは幻覚を符号化する能力が限られていたことが確認された。
- 参考スコア(独自算出の注目度): 4.017261947780098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an auditing method to identify whether a large language model
(LLM) encodes patterns such as hallucinations in its internal states, which may
propagate to downstream tasks. We introduce a weakly supervised auditing
technique using a subset scanning approach to detect anomalous patterns in LLM
activations from pre-trained models. Importantly, our method does not need
knowledge of the type of patterns a-priori. Instead, it relies on a reference
dataset devoid of anomalies during testing. Further, our approach enables the
identification of pivotal nodes responsible for encoding these patterns, which
may offer crucial insights for fine-tuning specific sub-networks for bias
mitigation. We introduce two new scanning methods to handle LLM activations for
anomalous sentences that may deviate from the expected distribution in either
direction. Our results confirm prior findings of BERT's limited internal
capacity for encoding hallucinations, while OPT appears capable of encoding
hallucination information internally. Importantly, our scanning approach,
without prior exposure to false statements, performs comparably to a fully
supervised out-of-distribution classifier.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)が内部状態の幻覚などのパターンを符号化するかどうかを監査する手法を提案する。
予備学習モデルからLLMアクティベーションにおける異常パターンを検出するために,サブセットスキャンを用いた弱教師付き監査手法を提案する。
重要となるのは,a-prioriパターンのタイプを知る必要がないことである。
代わりに、テスト中に異常のない参照データセットに依存する。
さらに,これらのパターンを符号化する重要なノードの同定を可能にし,バイアス緩和のために特定のサブネットワークを微調整するための重要な洞察を提供する。
両方向の予測分布から逸脱する可能性のある異常文に対するLLMアクティベーションを扱うための2つの新しいスキャン手法を提案する。
OPTは内部で幻覚情報を符号化できるが, BERTでは幻覚を符号化する能力は限られていた。
重要なことに、私たちのスキャンアプローチは、前もって偽のステートメントに露出することなく、完全に監督された分配外分類器と互換性がある。
関連論文リスト
- Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。
教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文 参考訳(メタデータ) (2024-07-24T16:33:04Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - LLMAuditor: A Framework for Auditing Large Language Models Using Human-in-the-Loop [7.77005079649294]
有効な方法は、同じ質問の異なるバージョンを使って、大きな言語モデルを探索することである。
この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。
我々はLLMAuditorフレームワークを提案し、異なるLLMとHIL(Human-in-the-loop)を併用する。
このアプローチは、検証性と透明性を提供すると同時に、同じLLMへの円形依存を回避する。
論文 参考訳(メタデータ) (2024-02-14T17:49:31Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。