Fugu-MT 論文翻訳(概要): Weakly Supervised Detection of Hallucinations in LLM Activations

論文の概要: Weakly Supervised Detection of Hallucinations in LLM Activations

arxiv url: http://arxiv.org/abs/2312.02798v1
Date: Tue, 5 Dec 2023 14:35:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 15:35:42.889684
Title: Weakly Supervised Detection of Hallucinations in LLM Activations
Title（参考訳）: LLM活性化における幻覚の検出
Authors: Miriam Rateike, Celia Cintas, John Wamburu, Tanya Akumu, Skyler Speakman
Abstract要約: 本研究では,大規模言語モデルが内部状態の幻覚を符号化するかどうかを監査する手法を提案する。本稿では,異常パターンを検出するために,サブセットスキャンを用いた弱教師付き監査手法を提案する。 OPTは内部で幻覚情報を符号化できるが, BERTでは幻覚を符号化する能力が限られていたことが確認された。
参考スコア（独自算出の注目度）: 4.017261947780098
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose an auditing method to identify whether a large language model (LLM) encodes patterns such as hallucinations in its internal states, which may propagate to downstream tasks. We introduce a weakly supervised auditing technique using a subset scanning approach to detect anomalous patterns in LLM activations from pre-trained models. Importantly, our method does not need knowledge of the type of patterns a-priori. Instead, it relies on a reference dataset devoid of anomalies during testing. Further, our approach enables the identification of pivotal nodes responsible for encoding these patterns, which may offer crucial insights for fine-tuning specific sub-networks for bias mitigation. We introduce two new scanning methods to handle LLM activations for anomalous sentences that may deviate from the expected distribution in either direction. Our results confirm prior findings of BERT's limited internal capacity for encoding hallucinations, while OPT appears capable of encoding hallucination information internally. Importantly, our scanning approach, without prior exposure to false statements, performs comparably to a fully supervised out-of-distribution classifier.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)が内部状態の幻覚などのパターンを符号化するかどうかを監査する手法を提案する。予備学習モデルからLLMアクティベーションにおける異常パターンを検出するために,サブセットスキャンを用いた弱教師付き監査手法を提案する。重要となるのは,a-prioriパターンのタイプを知る必要がないことである。代わりに、テスト中に異常のない参照データセットに依存する。さらに,これらのパターンを符号化する重要なノードの同定を可能にし,バイアス緩和のために特定のサブネットワークを微調整するための重要な洞察を提供する。両方向の予測分布から逸脱する可能性のある異常文に対するLLMアクティベーションを扱うための2つの新しいスキャン手法を提案する。 OPTは内部で幻覚情報を符号化できるが, BERTでは幻覚を符号化する能力は限られていた。重要なことに、私たちのスキャンアプローチは、前もって偽のステートメントに露出することなく、完全に監督された分配外分類器と互換性がある。

関連論文リスト

Feeding LLM Annotations to BERT Classifiers at Your Own Risk [14.533304890042361]
テキスト分類のための小さなエンコーダのみのモデルにLLM生成ラベルを使用することは、様々な設定で人気を博している。合成データに対する訓練の長年の呪いが、この特定の設定でどのように現れているかを実証する。金ラベルでトレーニングされたモデルと比較して、精度とF1スコアが期待される性能劣化だけでなく、トレーニングランと未熟なパフォーマンスプラトーの不安定性も向上する。
論文参考訳（メタデータ） (2025-04-21T20:54:55Z)
Learning on LLM Output Signatures for gray-box LLM Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。我々は,既存の手法の近似を理論的に保証するプロセスに対して,トランスフォーマーに基づくアプローチを開発する。提案手法は,グレーボックス設定における幻覚およびデータ汚染検出における優れた性能を実現する。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文参考訳（メタデータ） (2024-10-14T08:41:31Z)
Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文参考訳（メタデータ） (2024-07-24T16:33:04Z)
Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文参考訳（メタデータ） (2024-06-24T04:17:03Z)
LLMAuditor: A Framework for Auditing Large Language Models Using Human-in-the-Loop [7.77005079649294]
有効な方法は、同じ質問の異なるバージョンを使って、大きな言語モデルを探索することである。この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。我々はLLMAuditorフレームワークを提案し、異なるLLMとHIL(Human-in-the-loop)を併用する。このアプローチは、検証性と透明性を提供すると同時に、同じLLMへの円形依存を回避する。
論文参考訳（メタデータ） (2024-02-14T17:49:31Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)
Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (2022-06-23T14:16:30Z)
Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文参考訳（メタデータ） (2020-11-05T00:18:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。