論文の概要: The Internal State of an LLM Knows When its Lying
- arxiv url: http://arxiv.org/abs/2304.13734v1
- Date: Wed, 26 Apr 2023 02:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 15:40:22.756977
- Title: The Internal State of an LLM Knows When its Lying
- Title(参考訳): LLMの内部状態がいつリビングするか
- Authors: Amos Azaria, Tom Mitchell
- Abstract要約: LLM生成文の真偽を検出するための,単純かつ効果的な手法を提案する。
LLMのアクティベーション値に基づいて、どの文が真か偽かを検出するように、分類器が訓練される。
実験の結果,文の正確性を検出する手法は,数発のプロンプト法よりも優れていた。
- 参考スコア(独自算出の注目度): 8.442084903594528
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Large Language Models (LLMs) have shown exceptional performance in
various tasks, their (arguably) most prominent drawback is generating
inaccurate or false information with a confident tone. In this paper, we
hypothesize that the LLM's internal state can be used to reveal the
truthfulness of a statement. Therefore, we introduce a simple yet effective
method to detect the truthfulness of LLM-generated statements, which utilizes
the LLM's hidden layer activations to determine the veracity of statements. To
train and evaluate our method, we compose a dataset of true and false
statements in six different topics. A classifier is trained to detect which
statement is true or false based on an LLM's activation values. Specifically,
the classifier receives as input the activation values from the LLM for each of
the statements in the dataset. Our experiments demonstrate that our method for
detecting statement veracity significantly outperforms even few-shot prompting
methods, highlighting its potential to enhance the reliability of LLM-generated
content and its practical applicability in real-world scenarios.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示しているが、最も顕著な欠点は、自信のあるトーンで不正確または偽の情報を生成することである。
本稿では, LLMの内部状態が文の真偽を明らかにするために利用できると仮定する。
そこで,本研究では,LCMが生成するステートメントの真偽を簡易かつ効果的に検出する手法を提案し,LCMの隠蔽層アクティベーションを用いて文の正確性を決定する。
提案手法を訓練し,評価するために,6つのトピックで真文と偽文のデータセットを構成する。
LLMのアクティベーション値に基づいて、どの文が真か偽かを検出するように、分類器が訓練される。
具体的には、分類器はデータセットの各文に対してllmからアクティベーション値を入力として受信する。
提案手法は, LLM生成コンテンツの信頼性向上と実世界のシナリオへの適用性向上に寄与し, 数発のプロンプト法よりも格段に優れていることを示す。
関連論文リスト
- Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on
Zero-shot LLM Assessment [10.05719021957877]
テキストに付加された場合,LLMを騙して高い評価スコアを与える,短い普遍的なフレーズを検索する。
SummEval と TopicalChat の実験では、単純な結合攻撃に対して LLM-scoring と 2 対 LLM-comparativeアセスメントの両方が脆弱であることが示された。
これは、さまざまな判断-LLMサイズ、ファミリー、メソッドにまたがる敵の脆弱性の広範性を強調します。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新
既存の作業はこの特性を無視し、編集には一般化が欠けている。
実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文 参考訳(メタデータ) (2024-01-15T09:09:14Z) - Why LLMs Hallucinate, and How to Get (Evidential) Closure: Perceptual,
Intensional, and Extensional Learning for Faithful Natural Language
Generation [0.0]
LLMは、その出力がそれらが証拠を持つ主張と同義であることに制約されないため、幻覚的であることを示す。
次に, LLM を制約して, 明らかな閉包を満たす出力を生成する方法を示す。
論文 参考訳(メタデータ) (2023-10-23T20:35:52Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。