論文の概要: Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts
- arxiv url: http://arxiv.org/abs/2508.06361v2
- Date: Mon, 29 Sep 2025 09:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.14559
- Title: Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts
- Title(参考訳): プロンプトに起因した嘘の超過 - 良性プロンプトに対するLDMの偽装の調査から-
- Authors: Zhaomin Wu, Mingzhe Du, See-Kiong Ng, Bingsheng He,
- Abstract要約: 大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
- 参考スコア(独自算出の注目度): 79.1081247754018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are widely deployed in reasoning, planning, and decision-making tasks, making their trustworthiness critical. A significant and underexplored risk is intentional deception, where an LLM deliberately fabricates or conceals information to serve a hidden objective. Existing studies typically induce deception by explicitly setting a hidden objective through prompting or fine-tuning, which may not reflect real-world human-LLM interactions. Moving beyond such human-induced deception, we investigate LLMs' self-initiated deception on benign prompts. To address the absence of ground truth, we propose a framework based on Contact Searching Questions~(CSQ). This framework introduces two statistical metrics derived from psychological principles to quantify the likelihood of deception. The first, the Deceptive Intention Score, measures the model's bias toward a hidden objective. The second, the Deceptive Behavior Score, measures the inconsistency between the LLM's internal belief and its expressed output. Evaluating 16 leading LLMs, we find that both metrics rise in parallel and escalate with task difficulty for most models. Moreover, increasing model capacity does not always reduce deception, posing a significant challenge for future LLM development.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされており、信頼性を重要視している。
LLMは意図的に情報を偽造または隠蔽し、隠された目的に役立てる。
既存の研究は、現実世界の人間とLLMの相互作用を反映していないかもしれない、プロンプトや微調整を通じて、隠された目的を明示的に設定することで、詐欺を誘発する。
このような人為的騙しを超越して、良性刺激に対するLSMの自己開始性騙しについて検討する。
そこで本研究では,接点探索質問(CSQ)に基づく枠組みを提案する。
この枠組みは、虚偽の可能性を定量化するために、心理学的原理から導かれた2つの統計指標を導入している。
第一に、認知的意図スコア(Deceptive Intention Score)は、隠れた目的に対するモデルのバイアスを測定する。
2つ目は、認知行動スコア(Deceptive Behavior Score)であり、LLMの内部信念と表現された出力との矛盾を測定する。
16のLLMを評価すると、両方のメトリクスが並列に上昇し、ほとんどのモデルでタスクの難易度に応じてエスカレートすることがわかった。
さらに、モデルキャパシティの増大は必ずしも騙しを減らさないため、将来のLLM開発において大きな課題となる。
関連論文リスト
- Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。
これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。
本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文 参考訳(メタデータ) (2025-01-27T21:26:37Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。