Fugu-MT 論文翻訳(概要): How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions

論文の概要: How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions

arxiv url: http://arxiv.org/abs/2309.15840v1
Date: Tue, 26 Sep 2023 16:07:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 12:24:46.164062
Title: How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions
Title（参考訳）: AIの嘘をつかむ方法:無関係な質問をすることでブラックボックスのLLMの嘘検出
Authors: Lorenzo Pacchiardi, Alex J. Chan, S\"oren Mindermann, Ilan Moscovitz, Alexa Y. Pan, Yarin Gal, Owain Evans, Jan Brauner
Abstract要約: 大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
参考スコア（独自算出の注目度）: 34.53980255211931
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) can "lie", which we define as outputting false statements despite "knowing" the truth in a demonstrable sense. LLMs might "lie", for example, when instructed to output misinformation. Here, we develop a simple lie detector that requires neither access to the LLM's activations (black-box) nor ground-truth knowledge of the fact in question. The detector works by asking a predefined set of unrelated follow-up questions after a suspected lie, and feeding the LLM's yes/no answers into a logistic regression classifier. Despite its simplicity, this lie detector is highly accurate and surprisingly general. When trained on examples from a single setting -- prompting GPT-3.5 to lie about factual questions -- the detector generalises out-of-distribution to (1) other LLM architectures, (2) LLMs fine-tuned to lie, (3) sycophantic lies, and (4) lies emerging in real-life scenarios such as sales. These results indicate that LLMs have distinctive lie-related behavioural patterns, consistent across architectures and contexts, which could enable general-purpose lie detection.
Abstract（参考訳）: 大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽文を出力するものとして定義できる。例えば、誤情報を出力するように指示された場合、LLMは「十分」かもしれない。本稿では,LCMのアクティベーション(ブラックボックス)へのアクセスも,問題となっている事実の地味な知識も必要としない簡易な嘘検出装置を開発する。この検出器は、疑わしい嘘の後に予め定義された無関係なフォローアップ質問のセットを問うことで動作し、llmのyes/no回答をロジスティック回帰分類器に供給する。シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。 1つの設定から例を訓練すると、GPT-3.5は事実の疑問に答えるため、(1)他のLCMアーキテクチャー、(2)微調整されたLCM、(3)サイコファンの嘘、(4)販売などの現実のシナリオに現れている。これらの結果から,LLMはアーキテクチャやコンテキスト間で一貫した振る舞いパターンを持ち,汎用的な嘘検出を可能にすることが示唆された。

関連論文リスト

The Trilemma of Truth in Large Language Models [1.62933895796838]
大規模言語モデル(LLM)の妥当性を検証するための2つの共通手法について検討する。 sAwMILは, LLMの内部アクティベーションを利用して, 文を真, 偽, 両方に分離する探索手法である。 sAwMILを16のオープンソースLCMの5つの妥当性基準で評価した。
論文参考訳（メタデータ） (2025-06-30T14:49:28Z)
Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks [31.379237532476875]
我々は,大規模言語モデル (LLM) が真理性を「真理方向」と呼ぶ線形特徴としてエンコードするかどうかを考察する。以上の結果から,全てのLLMが一貫した真理方向を示すわけではなく,より有能なモデルでより強い表現が観察されることがわかった。宣言的原子文に基づいて訓練された真理性プローブは、論理変換、質問応答タスク、文脈内学習、外部知識ソースに効果的に一般化できることを示す。
論文参考訳（メタデータ） (2025-06-01T03:55:53Z)
Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs [48.202202256201815]
大型言語モデル(LLM)における実名幻覚不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
論文参考訳（メタデータ） (2025-05-22T11:00:53Z)
Exploring the generalization of LLM truth directions on conversational formats [0.0]
モデル内の1つの隠れ状態でトレーニングされた線形プローブは、既に様々なトピックにわたって一般化されていることを示す。嘘で終わる短い会話の間には良い一般化があるが、入力プロンプトにその嘘が早く現れるより長いフォーマットへの一般化は不十分である。
論文参考訳（メタデータ） (2025-05-14T21:21:08Z)
How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation [24.355564722047244]
大規模言語モデル(LLM)は多様なシナリオに広くデプロイされている。彼らが誤報をうまく広める程度は、重大な安全上の懸念として浮かび上がっている。暗黙的誤報の最初のベンチマークであるECHOMISTをキュレートした。
論文参考訳（メタデータ） (2025-03-12T17:59:18Z)
Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文参考訳（メタデータ） (2024-12-19T15:39:31Z)
Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。 LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文参考訳（メタデータ） (2024-10-01T06:07:00Z)
Truth is Universal: Robust Detection of Lies in LLMs [18.13311575803723]
大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。我々は、真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。我々の分析は、過去の研究で観察された一般化の失敗を説明し、さらなる段階を定めている。
論文参考訳（メタデータ） (2024-07-03T13:01:54Z)
Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。 LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文参考訳（メタデータ） (2024-06-22T03:32:09Z)
A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。 BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文参考訳（メタデータ） (2024-06-11T05:21:37Z)
The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (2024-01-01T14:02:27Z)
Localizing Lying in Llama: Understanding Instructed Dishonesty on True-False Questions Through Prompting, Probing, and Patching [0.0]
大規模言語モデル(LLM)は、その出力を通じて重要な知識を示すが、誤った出力が知識の欠如や不完全な原因であるかどうかはしばしば不明である。本稿では,LLaMA-2-70b-chatに嘘をつくように指示された不完全性について検討する。素早いエンジニアリングを行い、最も優れた嘘つきの振る舞いを誘導し、次に機械論的解釈可能性アプローチを用いて、ネットワーク内でこの振る舞いが起こる場所をローカライズする。
論文参考訳（メタデータ） (2023-11-25T22:41:23Z)
Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。近年の文献では、LLMは断続的に非実効応答を生成する。本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文参考訳（メタデータ） (2023-10-27T06:22:14Z)
The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文参考訳（メタデータ） (2023-10-10T17:54:39Z)
Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか? LLMの事実知識を評価する統計的手法であるKaRRを提案する。この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文参考訳（メタデータ） (2023-05-17T18:54:37Z)
The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文参考訳（メタデータ） (2023-04-26T02:49:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。