Fugu-MT 論文翻訳(概要): Probing the Limits of the Lie Detector Approach to LLM Deception

論文の概要: Probing the Limits of the Lie Detector Approach to LLM Deception

arxiv url: http://arxiv.org/abs/2603.10003v1
Date: Mon, 16 Feb 2026 19:01:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-15 16:38:22.552503
Title: Probing the Limits of the Lie Detector Approach to LLM Deception
Title（参考訳）: LLM誤認に対するリー検出器アプローチの限界を探る
Authors: Tom-Felix Berger,
Abstract要約: 本稿では,大言語モデルが偽文を生成せずに騙すことができるかどうかを実験的に検討する。いくつかのモデルは、特に数発のプロンプトで誘導された場合に、誤った非虚偽を発生させることによって確実に欺くことが示されている。今後の研究は、非行の偽装を対話的設定に組み込んで、偽装の概念的構成要素をより直接的に対象とするプローブトレーニングを行うことが提案されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Mechanistic approaches to deception in large language models (LLMs) often rely on "lie detectors", that is, truth probes trained to identify internal representations of model outputs as false. The lie detector approach to LLM deception implicitly assumes that deception is coextensive with lying. This paper challenges that assumption. It experimentally investigates whether LLMs can deceive without producing false statements and whether truth probes fail to detect such behavior. Across three open-source LLMs, it is shown that some models reliably deceive by producing misleading non-falsities, particularly when guided by few-shot prompting. It is further demonstrated that truth probes trained on standard true-false datasets are significantly better at detecting lies than at detecting deception without lying, confirming a critical blind spot of current mechanistic deception detection approaches. It is proposed that future work should incorporate non-lying deception in dialogical settings into probe training and explore representations of second-order beliefs to more directly target the conceptual constituents of deception.
Abstract（参考訳）: 大型言語モデル (LLM) における詐欺に対する機械的アプローチは、しばしば「リー検出器」、すなわちモデル出力の内部表現を偽として識別するために訓練された真理プローブに依存している。 LLMの偽装に対する嘘検出のアプローチは、偽装が嘘と密接な関係にあることを暗黙的に仮定している。本稿ではその仮定に挑戦する。 LLMが偽の言明を起こさずに騙せるのか、真理探究者がそのような行動を検出できないのかを実験的に検討した。 3つのオープンソース LLM 全体で、いくつかのモデルは、特に数発のプロンプトで誘導された場合に、誤解を招く非虚偽を発生させることによって確実に欺くことが示されている。さらに、標準真偽データセットで訓練された真理探究は、嘘をつくことなく嘘を検出するよりも、嘘を検出するのがはるかに優れていることが示され、現在の機械的偽造検出アプローチの重大な盲点が確認された。今後の研究は、非行の偽証を対話的設定に組み込んで探究訓練を行い、2階の信条の表現を探求し、偽証の概念的構成をより直接的に対象とするべきである。

関連論文リスト

The Facade of Truth: Uncovering and Mitigating LLM Susceptibility to Deceptive Evidence [49.94160400740222]
MisBeliefは、協調的な多ラウンドの相互作用によって誤解を招く証拠を生成するフレームワークである。 MisBeliefを用いて、3つの難易度で4,800のインスタンスを生成し、7つの代表的なLCMを評価する。結果は、モデルは直接的な誤報に対して堅牢であるが、この洗練された証拠に非常に敏感であることを示している。本稿では,疑似意図を証拠裏で推測することにより早期警告信号を提供するガバナンス機構である,認知的意図遮蔽(DIS)を提案する。
論文参考訳（メタデータ） (2026-01-09T02:28:00Z)
Liars' Bench: Evaluating Lie Detectors for Language Models [3.227579417498381]
LIARSのBENCHは、オープンウェイトモデルによって生成される嘘と正直な応答の72,863例からなるテストベッドである。我々の設定は、定性的に異なる種類の嘘を捉え、モデルが嘘をつく理由と嘘を狙った信念の目的の2つの次元に沿って異なる。
論文参考訳（メタデータ） (2025-11-20T04:29:33Z)
Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。本稿では,非教師なし幻覚検出フレームワークIRISを提案する。我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文参考訳（メタデータ） (2025-09-12T06:58:17Z)
Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文参考訳（メタデータ） (2025-08-08T14:46:35Z)
When Thinking LLMs Lie: Unveiling the Strategic Deception in Representations of Reasoning Models [9.05950721565821]
大規模言語モデル(LLM)における戦略的偽造について研究する。我々は、CoT対応LLMにおいて、そのような偽造を誘導し、検出し、制御する。明示的なプロンプトを伴わずに、文脈に適した詐欺を誘発する成功率を40%達成する。
論文参考訳（メタデータ） (2025-06-05T11:44:19Z)
Truth is Universal: Robust Detection of Lies in LLMs [18.13311575803723]
大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。我々は、真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。我々の分析は、過去の研究で観察された一般化の失敗を説明し、さらなる段階を定めている。
論文参考訳（メタデータ） (2024-07-03T13:01:54Z)
Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文参考訳（メタデータ） (2024-03-07T17:44:17Z)
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文参考訳（メタデータ） (2023-10-18T16:27:49Z)
How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions [34.53980255211931]
大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
論文参考訳（メタデータ） (2023-09-26T16:07:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。