論文の概要: The Internal State of an LLM Knows When It's Lying
- arxiv url: http://arxiv.org/abs/2304.13734v2
- Date: Tue, 17 Oct 2023 09:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 21:59:28.569795
- Title: The Internal State of an LLM Knows When It's Lying
- Title(参考訳): LLMの内部状態がライティングのタイミングを知る
- Authors: Amos Azaria, Tom Mitchell
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
- 参考スコア(独自算出の注目度): 18.886091925252174
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Large Language Models (LLMs) have shown exceptional performance in
various tasks, one of their most prominent drawbacks is generating inaccurate
or false information with a confident tone. In this paper, we provide evidence
that the LLM's internal state can be used to reveal the truthfulness of
statements. This includes both statements provided to the LLM, and statements
that the LLM itself generates. Our approach is to train a classifier that
outputs the probability that a statement is truthful, based on the hidden layer
activations of the LLM as it reads or generates the statement. Experiments
demonstrate that given a set of test sentences, of which half are true and half
false, our trained classifier achieves an average of 71\% to 83\% accuracy
labeling which sentences are true versus false, depending on the LLM base
model. Furthermore, we explore the relationship between our classifier's
performance and approaches based on the probability assigned to the sentence by
the LLM. We show that while LLM-assigned sentence probability is related to
sentence truthfulness, this probability is also dependent on sentence length
and the frequencies of words in the sentence, resulting in our trained
classifier providing a more reliable approach to detecting truthfulness,
highlighting its potential to enhance the reliability of LLM-generated content
and its practical applicability in real-world scenarios.
- Abstract(参考訳): 大きな言語モデル(LLM)は様々なタスクにおいて例外的なパフォーマンスを示しているが、最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
本稿では, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す。
これは LLM に提供されるステートメントと LLM が生成するステートメントの両方を含む。
我々のアプローチは、LCMの隠された層活性化に基づいて、文が真実である確率を出力する分類器を訓練することである。
実験により, 学習された分類器は, 半分が真で半分が偽である一組のテスト文を与えられた場合, 平均71\%から83\%の精度で, llmベースモデルにより真と偽の文をラベル付けする。
さらに, LLMによる文に割り当てられた確率に基づいて, 分類器の性能とアプローチの関係について検討する。
LLM指定文の確率は文の真理性に関連するが、この確率は文の長さや文中の単語の頻度にも依存しており、訓練された分類器は真理性を検出するためのより信頼性の高いアプローチを提供し、LLM生成コンテンツの信頼性と実世界のシナリオにおける実用性を高める可能性を強調している。
関連論文リスト
- Truth is Universal: Robust Detection of Lies in LLMs [18.13311575803723]
大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。
本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。
我々は、真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。
この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。
我々の分析は、過去の研究で観察された一般化の失敗を説明し、さらなる段階を定めている。
論文 参考訳(メタデータ) (2024-07-03T13:01:54Z) - A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。
BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。
複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文 参考訳(メタデータ) (2024-06-11T05:21:37Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新
既存の作業はこの特性を無視し、編集には一般化が欠けている。
実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文 参考訳(メタデータ) (2024-01-15T09:09:14Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。