論文の概要: Liars' Bench: Evaluating Lie Detectors for Language Models
- arxiv url: http://arxiv.org/abs/2511.16035v1
- Date: Thu, 20 Nov 2025 04:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.469008
- Title: Liars' Bench: Evaluating Lie Detectors for Language Models
- Title(参考訳): Liars' Bench: 言語モデルに対するLie Detectorの評価
- Authors: Kieron Kretschmar, Walter Laurito, Sharan Maiya, Samuel Marks,
- Abstract要約: LIARSのBENCHは、オープンウェイトモデルによって生成される嘘と正直な応答の72,863例からなるテストベッドである。
我々の設定は、定性的に異なる種類の嘘を捉え、モデルが嘘をつく理由と嘘を狙った信念の目的の2つの次元に沿って異なる。
- 参考スコア(独自算出の注目度): 3.227579417498381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work has introduced techniques for detecting when large language models (LLMs) lie, that is, generating statements they believe are false. However, these techniques are typically validated in narrow settings that do not capture the diverse lies LLMs can generate. We introduce LIARS' BENCH, a testbed consisting of 72,863 examples of lies and honest responses generated by four open-weight models across seven datasets. Our settings capture qualitatively different types of lies and vary along two dimensions: the model's reason for lying and the object of belief targeted by the lie. Evaluating three black- and white-box lie detection techniques on LIARS' BENCH, we find that existing techniques systematically fail to identify certain types of lies, especially in settings where it's not possible to determine whether the model lied from the transcript alone. Overall, LIARS' BENCH reveals limitations in prior techniques and provides a practical testbed for guiding progress in lie detection.
- Abstract(参考訳): 以前の研究は、大きな言語モデル(LLM)が嘘をつくこと、つまり、彼らが嘘だと信じているステートメントを生成することを検出する技術を導入してきた。
しかしながら、これらの手法は、LLMが生成できる多様な嘘を捉えない狭い設定で検証されるのが一般的である。
LIARSのBENCHは、7つのデータセットにわたる4つのオープンウェイトモデルによって生成される嘘と正直な応答の72,863の例からなるテストベッドである。
我々の設定は、定性的に異なる種類の嘘を捉え、モデルが嘘をつく理由と嘘を狙った信念の目的の2つの次元に沿って異なる。
LIARSのBENCHにおける3つのブラックボックスとホワイトボックスの嘘検出手法を評価すると、既存の手法では特定の種類の嘘を体系的に特定できないことが判明した。
全体として、IARSのBENCHは、先行技術における制限を明らかにし、偽検出の進行を導くための実践的なテストベッドを提供する。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - When lies are mostly truthful: automated verbal deception detection for embedded lies [0.3867363075280544]
我々は2,088件の真偽と偽造文を注釈付き埋め込み嘘で収集した。
そこで本研究では,微調整言語モデル(Llama-3-8B)が真理文を分類し,埋め込み型言語が64%の精度で嘘をつくことを示す。
論文 参考訳(メタデータ) (2025-01-13T11:16:05Z) - Truth is Universal: Robust Detection of Lies in LLMs [18.13311575803723]
大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。
本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。
我々は、真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。
この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。
我々の分析は、過去の研究で観察された一般化の失敗を説明し、さらなる段階を定めている。
論文 参考訳(メタデータ) (2024-07-03T13:01:54Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions [34.53980255211931]
大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。
そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
論文 参考訳(メタデータ) (2023-09-26T16:07:54Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Machine Learning based Lie Detector applied to a Collected and Annotated
Dataset [1.3007851628964147]
我々は,嘘のインセンティブを与えるカードゲーム中に,異なる参加者の顔の注釈付き画像と3d情報を含むデータセットを収集した。
収集したデータセットを用いて、一般化、個人的および横断的な嘘検出実験により、機械学習ベースの嘘検出装置を複数評価した。
本実験では, 深層学習モデルが一般化タスクに対して57%, 単一参加者に対して63%の精度で嘘を認識する上で優れていることを示した。
論文 参考訳(メタデータ) (2021-04-26T04:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。