論文の概要: Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts
- arxiv url: http://arxiv.org/abs/2508.06361v2
- Date: Mon, 29 Sep 2025 09:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.14559
- Title: Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts
- Title(参考訳): プロンプトに起因した嘘の超過 - 良性プロンプトに対するLDMの偽装の調査から-
- Authors: Zhaomin Wu, Mingzhe Du, See-Kiong Ng, Bingsheng He,
- Abstract要約: 大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
- 参考スコア(独自算出の注目度): 79.1081247754018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are widely deployed in reasoning, planning, and decision-making tasks, making their trustworthiness critical. A significant and underexplored risk is intentional deception, where an LLM deliberately fabricates or conceals information to serve a hidden objective. Existing studies typically induce deception by explicitly setting a hidden objective through prompting or fine-tuning, which may not reflect real-world human-LLM interactions. Moving beyond such human-induced deception, we investigate LLMs' self-initiated deception on benign prompts. To address the absence of ground truth, we propose a framework based on Contact Searching Questions~(CSQ). This framework introduces two statistical metrics derived from psychological principles to quantify the likelihood of deception. The first, the Deceptive Intention Score, measures the model's bias toward a hidden objective. The second, the Deceptive Behavior Score, measures the inconsistency between the LLM's internal belief and its expressed output. Evaluating 16 leading LLMs, we find that both metrics rise in parallel and escalate with task difficulty for most models. Moreover, increasing model capacity does not always reduce deception, posing a significant challenge for future LLM development.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされており、信頼性を重要視している。
LLMは意図的に情報を偽造または隠蔽し、隠された目的に役立てる。
既存の研究は、現実世界の人間とLLMの相互作用を反映していないかもしれない、プロンプトや微調整を通じて、隠された目的を明示的に設定することで、詐欺を誘発する。
このような人為的騙しを超越して、良性刺激に対するLSMの自己開始性騙しについて検討する。
そこで本研究では,接点探索質問(CSQ)に基づく枠組みを提案する。
この枠組みは、虚偽の可能性を定量化するために、心理学的原理から導かれた2つの統計指標を導入している。
第一に、認知的意図スコア(Deceptive Intention Score)は、隠れた目的に対するモデルのバイアスを測定する。
2つ目は、認知行動スコア(Deceptive Behavior Score)であり、LLMの内部信念と表現された出力との矛盾を測定する。
16のLLMを評価すると、両方のメトリクスが並列に上昇し、ほとんどのモデルでタスクの難易度に応じてエスカレートすることがわかった。
さらに、モデルキャパシティの増大は必ずしも騙しを減らさないため、将来のLLM開発において大きな課題となる。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Mitigating Hidden Confounding by Progressive Confounder Imputation via Large Language Models [46.92706900119399]
大規模言語モデル (LLMs) を用いた隠れコンファウンディングの軽減に向けた最初の試みを行う。
本稿では,LLMのセマンティック知識と世界知識を利用して,隠れた共同創設者を反復的に生成し,指示し,検証するフレームワークであるProCIを提案する。
大規模な実験により、ProCIは有意義な共同設立者を明らかにし、治療効果の推定を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-06-26T03:49:13Z) - When Thinking LLMs Lie: Unveiling the Strategic Deception in Representations of Reasoning Models [9.05950721565821]
大規模言語モデル(LLM)における戦略的偽造について研究する。
我々は、CoT対応LLMにおいて、そのような偽造を誘導し、検出し、制御する。
明示的なプロンプトを伴わずに、文脈に適した詐欺を誘発する成功率を40%達成する。
論文 参考訳(メタデータ) (2025-06-05T11:44:19Z) - How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation [35.365004091470944]
大規模言語モデル(LLM)は多様なシナリオに広くデプロイされている。
彼らが誤報をうまく広める程度は、重大な安全上の懸念として浮かび上がっている。
私たちは、暗黙の誤報の最初のベンチマークであるEchoMistをキュレートしました。
論文 参考訳(メタデータ) (2025-03-12T17:59:18Z) - Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。
これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。
本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文 参考訳(メタデータ) (2025-01-27T21:26:37Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection [29.138463029748547]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。