論文の概要: How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions
- arxiv url: http://arxiv.org/abs/2309.15840v1
- Date: Tue, 26 Sep 2023 16:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:24:46.164062
- Title: How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions
- Title(参考訳): AIの嘘をつかむ方法:無関係な質問をすることでブラックボックスのLLMの嘘検出
- Authors: Lorenzo Pacchiardi, Alex J. Chan, S\"oren Mindermann, Ilan Moscovitz,
Alexa Y. Pan, Yarin Gal, Owain Evans, Jan Brauner
- Abstract要約: 大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。
そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
- 参考スコア(独自算出の注目度): 34.53980255211931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can "lie", which we define as outputting false
statements despite "knowing" the truth in a demonstrable sense. LLMs might
"lie", for example, when instructed to output misinformation. Here, we develop
a simple lie detector that requires neither access to the LLM's activations
(black-box) nor ground-truth knowledge of the fact in question. The detector
works by asking a predefined set of unrelated follow-up questions after a
suspected lie, and feeding the LLM's yes/no answers into a logistic regression
classifier. Despite its simplicity, this lie detector is highly accurate and
surprisingly general. When trained on examples from a single setting --
prompting GPT-3.5 to lie about factual questions -- the detector generalises
out-of-distribution to (1) other LLM architectures, (2) LLMs fine-tuned to lie,
(3) sycophantic lies, and (4) lies emerging in real-life scenarios such as
sales. These results indicate that LLMs have distinctive lie-related
behavioural patterns, consistent across architectures and contexts, which could
enable general-purpose lie detection.
- Abstract(参考訳): 大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽文を出力するものとして定義できる。
例えば、誤情報を出力するように指示された場合、LLMは「十分」かもしれない。
本稿では,LCMのアクティベーション(ブラックボックス)へのアクセスも,問題となっている事実の地味な知識も必要としない簡易な嘘検出装置を開発する。
この検出器は、疑わしい嘘の後に予め定義された無関係なフォローアップ質問のセットを問うことで動作し、llmのyes/no回答をロジスティック回帰分類器に供給する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
1つの設定から例を訓練すると、GPT-3.5は事実の疑問に答えるため、(1)他のLCMアーキテクチャー、(2)微調整されたLCM、(3)サイコファンの嘘、(4)販売などの現実のシナリオに現れている。
これらの結果から,LLMはアーキテクチャやコンテキスト間で一貫した振る舞いパターンを持ち,汎用的な嘘検出を可能にすることが示唆された。
関連論文リスト
- Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Truth is Universal: Robust Detection of Lies in LLMs [18.13311575803723]
大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。
本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。
我々は、真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。
この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。
我々の分析は、過去の研究で観察された一般化の失敗を説明し、さらなる段階を定めている。
論文 参考訳(メタデータ) (2024-07-03T13:01:54Z) - Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。
LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。
本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文 参考訳(メタデータ) (2024-06-22T03:32:09Z) - A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。
BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。
複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文 参考訳(メタデータ) (2024-06-11T05:21:37Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Localizing Lying in Llama: Understanding Instructed Dishonesty on
True-False Questions Through Prompting, Probing, and Patching [0.0]
大規模言語モデル(LLM)は、その出力を通じて重要な知識を示すが、誤った出力が知識の欠如や不完全な原因であるかどうかはしばしば不明である。
本稿では,LLaMA-2-70b-chatに嘘をつくように指示された不完全性について検討する。
素早いエンジニアリングを行い、最も優れた嘘つきの振る舞いを誘導し、次に機械論的解釈可能性アプローチを用いて、ネットワーク内でこの振る舞いが起こる場所をローカライズする。
論文 参考訳(メタデータ) (2023-11-25T22:41:23Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。