論文の概要: Truth is Universal: Robust Detection of Lies in LLMs
- arxiv url: http://arxiv.org/abs/2407.12831v2
- Date: Mon, 21 Oct 2024 08:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:06.891507
- Title: Truth is Universal: Robust Detection of Lies in LLMs
- Title(参考訳): 真実は普遍である: LLMにおける嘘のロバスト検出
- Authors: Lennart Bürger, Fred A. Hamprecht, Boaz Nadler,
- Abstract要約: 大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。
本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。
我々は、真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。
この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。
我々の分析は、過去の研究で観察された一般化の失敗を説明し、さらなる段階を定めている。
- 参考スコア(独自算出の注目度): 18.13311575803723
- License:
- Abstract: Large Language Models (LLMs) have revolutionised natural language processing, exhibiting impressive human-like capabilities. In particular, LLMs are capable of "lying", knowingly outputting false statements. Hence, it is of interest and importance to develop methods to detect when LLMs lie. Indeed, several authors trained classifiers to detect LLM lies based on their internal model activations. However, other researchers showed that these classifiers may fail to generalise, for example to negated statements. In this work, we aim to develop a robust method to detect when an LLM is lying. To this end, we make the following key contributions: (i) We demonstrate the existence of a two-dimensional subspace, along which the activation vectors of true and false statements can be separated. Notably, this finding is universal and holds for various LLMs, including Gemma-7B, LLaMA2-13B, Mistral-7B and LLaMA3-8B. Our analysis explains the generalisation failures observed in previous studies and sets the stage for more robust lie detection; (ii) Building upon (i), we construct an accurate LLM lie detector. Empirically, our proposed classifier achieves state-of-the-art performance, attaining 94% accuracy in both distinguishing true from false factual statements and detecting lies generated in real-world scenarios.
- Abstract(参考訳): 大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。
特にLLMは、意図的に偽の文を出力する"lying"能力を持つ。
したがって、LSMがいつあるかを検出する手法を開発することが重要かつ重要である。
実際、いくつかの著者はLPMを検出するための分類器を内部モデルアクティベーションに基づいて訓練した。
しかし、他の研究者はこれらの分類器が一般化に失敗する可能性があることを示した。
本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。
この目的のために、我々は以下の重要な貢献をしている。
i) 真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。
特に、この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。
我々の分析は、過去の研究で見られた一般化の失敗を説明し、より堅牢な嘘検出のステージを設定します。
(二)造営
i) 正確なLLM嘘検出装置を構築した。
実証的に,提案した分類器は,虚偽の事実文と偽の事実文を区別し,実世界のシナリオで生成した嘘を検出することにより,94%の精度を達成できる。
関連論文リスト
- A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。
BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。
複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文 参考訳(メタデータ) (2024-06-11T05:21:37Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Truth Forest: Toward Multi-Scale Truthfulness in Large Language Models
through Intervention without Tuning [18.92421817900689]
大規模言語モデル(LLM)における真理性を高める手法であるTrath Forestを紹介する。
また、シーケンス内の幅広い位置を考慮に入れた体系的手法であるランダム・ピークを導入する。
論文 参考訳(メタデータ) (2023-12-29T06:08:18Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model
Representations of True/False Datasets [7.953477673546057]
大きな言語モデル(LLM)には印象的な機能があるが、偽装を出力する傾向がある。
本稿では,言語モデルが事実文の真偽を線形に表現していることを示す。
提案手法は, モデル出力において他の探索手法よりも因果関係が深く, より一般化し, 因果関係が深い新しい手法である質量平均探索法を提案する。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions [34.53980255211931]
大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。
そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
論文 参考訳(メタデータ) (2023-09-26T16:07:54Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。