論文の概要: How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions
- arxiv url: http://arxiv.org/abs/2309.15840v1
- Date: Tue, 26 Sep 2023 16:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:24:46.164062
- Title: How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions
- Title(参考訳): AIの嘘をつかむ方法:無関係な質問をすることでブラックボックスのLLMの嘘検出
- Authors: Lorenzo Pacchiardi, Alex J. Chan, S\"oren Mindermann, Ilan Moscovitz,
Alexa Y. Pan, Yarin Gal, Owain Evans, Jan Brauner
- Abstract要約: 大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。
そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
- 参考スコア(独自算出の注目度): 34.53980255211931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can "lie", which we define as outputting false
statements despite "knowing" the truth in a demonstrable sense. LLMs might
"lie", for example, when instructed to output misinformation. Here, we develop
a simple lie detector that requires neither access to the LLM's activations
(black-box) nor ground-truth knowledge of the fact in question. The detector
works by asking a predefined set of unrelated follow-up questions after a
suspected lie, and feeding the LLM's yes/no answers into a logistic regression
classifier. Despite its simplicity, this lie detector is highly accurate and
surprisingly general. When trained on examples from a single setting --
prompting GPT-3.5 to lie about factual questions -- the detector generalises
out-of-distribution to (1) other LLM architectures, (2) LLMs fine-tuned to lie,
(3) sycophantic lies, and (4) lies emerging in real-life scenarios such as
sales. These results indicate that LLMs have distinctive lie-related
behavioural patterns, consistent across architectures and contexts, which could
enable general-purpose lie detection.
- Abstract(参考訳): 大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽文を出力するものとして定義できる。
例えば、誤情報を出力するように指示された場合、LLMは「十分」かもしれない。
本稿では,LCMのアクティベーション(ブラックボックス)へのアクセスも,問題となっている事実の地味な知識も必要としない簡易な嘘検出装置を開発する。
この検出器は、疑わしい嘘の後に予め定義された無関係なフォローアップ質問のセットを問うことで動作し、llmのyes/no回答をロジスティック回帰分類器に供給する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
1つの設定から例を訓練すると、GPT-3.5は事実の疑問に答えるため、(1)他のLCMアーキテクチャー、(2)微調整されたLCM、(3)サイコファンの嘘、(4)販売などの現実のシナリオに現れている。
これらの結果から,LLMはアーキテクチャやコンテキスト間で一貫した振る舞いパターンを持ち,汎用的な嘘検出を可能にすることが示唆された。
関連論文リスト
- The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Localizing Lying in Llama: Understanding Instructed Dishonesty on
True-False Questions Through Prompting, Probing, and Patching [0.0]
大規模言語モデル(LLM)は、その出力を通じて重要な知識を示すが、誤った出力が知識の欠如や不完全な原因であるかどうかはしばしば不明である。
本稿では,LLaMA-2-70b-chatに嘘をつくように指示された不完全性について検討する。
素早いエンジニアリングを行い、最も優れた嘘つきの振る舞いを誘導し、次に機械論的解釈可能性アプローチを用いて、ネットワーク内でこの振る舞いが起こる場所をローカライズする。
論文 参考訳(メタデータ) (2023-11-25T22:41:23Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model
Representations of True/False Datasets [7.953477673546057]
大きな言語モデル(LLM)には印象的な機能があるが、偽装を出力する傾向がある。
本稿では,言語モデルが事実文の真偽を線形に表現していることを示す。
提案手法は, モデル出力において他の探索手法よりも因果関係が深く, より一般化し, 因果関係が深い新しい手法である質量平均探索法を提案する。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。