論文の概要: When Thinking LLMs Lie: Unveiling the Strategic Deception in Representations of Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.04909v1
- Date: Thu, 05 Jun 2025 11:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.680854
- Title: When Thinking LLMs Lie: Unveiling the Strategic Deception in Representations of Reasoning Models
- Title(参考訳): LLMが嘘をつくとき: 推論モデルの表現における戦略的誤認を解き明かす
- Authors: Kai Wang, Yihao Zhang, Meng Sun,
- Abstract要約: 大規模言語モデル(LLM)における戦略的偽造について研究する。
我々は、CoT対応LLMにおいて、そのような偽造を誘導し、検出し、制御する。
明示的なプロンプトを伴わずに、文脈に適した詐欺を誘発する成功率を40%達成する。
- 参考スコア(独自算出の注目度): 9.05950721565821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The honesty of large language models (LLMs) is a critical alignment challenge, especially as advanced systems with chain-of-thought (CoT) reasoning may strategically deceive humans. Unlike traditional honesty issues on LLMs, which could be possibly explained as some kind of hallucination, those models' explicit thought paths enable us to study strategic deception--goal-driven, intentional misinformation where reasoning contradicts outputs. Using representation engineering, we systematically induce, detect, and control such deception in CoT-enabled LLMs, extracting "deception vectors" via Linear Artificial Tomography (LAT) for 89% detection accuracy. Through activation steering, we achieve a 40% success rate in eliciting context-appropriate deception without explicit prompts, unveiling the specific honesty-related issue of reasoning models and providing tools for trustworthy AI alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)の正直性は、特にチェーン・オブ・ソート(CoT)推論を持つ先進的なシステムが戦略的に人間を欺いた場合、重要なアライメントの課題である。
LLMの伝統的な正直な問題とは違い、ある種の幻覚として説明できる可能性があり、これらのモデルの明確な思考経路は、推論がアウトプットと矛盾する、ゴール駆動、意図的な誤報を戦略的に研究することを可能にする。
表現工学を用いて, 線形人工断層法(LAT)を用いて, 89%の精度で, 線形人工断層法(LAT)を用いて, その誤検出を系統的に誘導し, 検出し, 制御する。
アクティベーションステアリングを通じて、明示的なプロンプトなしでコンテキストに適した偽装を誘発し、推論モデルの特定の正直な問題を明らかにし、信頼できるAIアライメントのためのツールを提供することで、40%の成功率を達成する。
関連論文リスト
- Cognitive Debiasing Large Language Models for Decision-Making [71.2409973056137]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
我々の手法は、3つの逐次的なステップ – バイアス決定、バイアス分析、認知バイアス ― に従うことで、プロンプトにおける潜在的な認知バイアスを反復的に緩和する。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Fooling LLM graders into giving better grades through neural activity guided adversarial prompting [26.164839501935973]
本稿では,AI評価システムにおけるそのようなバイアスを明らかにするための体系的手法を提案する。
我々のアプローチはまず、歪んだ決定結果を予測する隠れた神経活動パターンを特定する。
この組み合わせによって、大きな言語モデルグレーダーを効果的に騙して、人間よりもはるかに高いグレードを割り当てることができることを実証する。
論文 参考訳(メタデータ) (2024-12-17T19:08:22Z) - A Causal Explainable Guardrails for Large Language Models [29.441292837667415]
大規模言語モデル(LLM)は自然言語処理において顕著な性能を示すが、その出力は望ましくない属性やバイアスを示すことができる。
LLMGuardrailは、因果解析と逆学習を組み込んだ新しいフレームワークで、偏りのない操舵表現を得る。
論文 参考訳(メタデータ) (2024-05-07T09:55:05Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - State Machine of Thoughts: Leveraging Past Reasoning Trajectories for
Enhancing Problem Solving [6.198707341858042]
我々は、状態マシンを使用して、以前の推論軌道から得られた経験を記録する。
状態マシン内では、状態は分解されたサブプロブレムを表し、状態遷移はサブプロブレム間の依存関係を反映する。
提案するState Machine of Thoughts (SMoT)は,最も最適なサブソリューションを選択し,誤ったサブソリューションを避ける。
論文 参考訳(メタデータ) (2023-12-29T03:00:04Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。