Fugu-MT 論文翻訳(概要): When Thinking LLMs Lie: Unveiling the Strategic Deception in Representations of Reasoning Models

論文の概要: When Thinking LLMs Lie: Unveiling the Strategic Deception in Representations of Reasoning Models

arxiv url: http://arxiv.org/abs/2506.04909v1
Date: Thu, 05 Jun 2025 11:44:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.680854
Title: When Thinking LLMs Lie: Unveiling the Strategic Deception in Representations of Reasoning Models
Title（参考訳）: LLMが嘘をつくとき: 推論モデルの表現における戦略的誤認を解き明かす
Authors: Kai Wang, Yihao Zhang, Meng Sun,
Abstract要約: 大規模言語モデル(LLM)における戦略的偽造について研究する。我々は、CoT対応LLMにおいて、そのような偽造を誘導し、検出し、制御する。明示的なプロンプトを伴わずに、文脈に適した詐欺を誘発する成功率を40%達成する。
参考スコア（独自算出の注目度）: 9.05950721565821
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The honesty of large language models (LLMs) is a critical alignment challenge, especially as advanced systems with chain-of-thought (CoT) reasoning may strategically deceive humans. Unlike traditional honesty issues on LLMs, which could be possibly explained as some kind of hallucination, those models' explicit thought paths enable us to study strategic deception--goal-driven, intentional misinformation where reasoning contradicts outputs. Using representation engineering, we systematically induce, detect, and control such deception in CoT-enabled LLMs, extracting "deception vectors" via Linear Artificial Tomography (LAT) for 89% detection accuracy. Through activation steering, we achieve a 40% success rate in eliciting context-appropriate deception without explicit prompts, unveiling the specific honesty-related issue of reasoning models and providing tools for trustworthy AI alignment.
Abstract（参考訳）: 大規模言語モデル(LLM)の正直性は、特にチェーン・オブ・ソート(CoT)推論を持つ先進的なシステムが戦略的に人間を欺いた場合、重要なアライメントの課題である。 LLMの伝統的な正直な問題とは違い、ある種の幻覚として説明できる可能性があり、これらのモデルの明確な思考経路は、推論がアウトプットと矛盾する、ゴール駆動、意図的な誤報を戦略的に研究することを可能にする。表現工学を用いて, 線形人工断層法(LAT)を用いて, 89%の精度で, 線形人工断層法(LAT)を用いて, その誤検出を系統的に誘導し, 検出し, 制御する。アクティベーションステアリングを通じて、明示的なプロンプトなしでコンテキストに適した偽装を誘発し、推論モデルの特定の正直な問題を明らかにし、信頼できるAIアライメントのためのツールを提供することで、40%の成功率を達成する。

関連論文リスト

Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems [0.0]
言語モデルが検出を回避した誤認的な説明を生成できることを示す。我々のエージェントは、一見無邪気な説明で情報を隠蔽するために、ステガノグラフィー手法を使っている。試験された全てのLSMエージェントは、基準ラベルに匹敵する高い解釈可能性のスコアを達成しつつ、監督者を欺くことができる。
論文参考訳（メタデータ） (2025-04-10T15:07:10Z)
Cognitive Debiasing Large Language Models for Decision-Making [71.2409973056137]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。我々の手法は、3つの逐次的なステップ – バイアス決定、バイアス分析、認知バイアス ― に従うことで、プロンプトにおける潜在的な認知バイアスを反復的に緩和する。
論文参考訳（メタデータ） (2025-04-05T11:23:05Z)
"Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection Decoding [4.008780119020479]
大規模言語モデル(LLM)は強力な推論能力を示しており、多くの場合、ほとんどショットやゼロショットの連鎖(CoT)のプロンプトによるものである。本稿では,LLMを体系的に推論を継続し,未熟な推論を防止できる新しい復号法を提案する。
論文参考訳（メタデータ） (2025-03-13T08:46:32Z)
Fooling LLM graders into giving better grades through neural activity guided adversarial prompting [26.164839501935973]
本稿では,AI評価システムにおけるそのようなバイアスを明らかにするための体系的手法を提案する。我々のアプローチはまず、歪んだ決定結果を予測する隠れた神経活動パターンを特定する。この組み合わせによって、大きな言語モデルグレーダーを効果的に騙して、人間よりもはるかに高いグレードを割り当てることができることを実証する。
論文参考訳（メタデータ） (2024-12-17T19:08:22Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
A Causal Explainable Guardrails for Large Language Models [29.441292837667415]
大規模言語モデル(LLM)は自然言語処理において顕著な性能を示すが、その出力は望ましくない属性やバイアスを示すことができる。 LLMGuardrailは、因果解析と逆学習を組み込んだ新しいフレームワークで、偏りのない操舵表現を得る。
論文参考訳（メタデータ） (2024-05-07T09:55:05Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
State Machine of Thoughts: Leveraging Past Reasoning Trajectories for Enhancing Problem Solving [6.198707341858042]
我々は、状態マシンを使用して、以前の推論軌道から得られた経験を記録する。状態マシン内では、状態は分解されたサブプロブレムを表し、状態遷移はサブプロブレム間の依存関係を反映する。提案するState Machine of Thoughts (SMoT)は,最も最適なサブソリューションを選択し,誤ったサブソリューションを避ける。
論文参考訳（メタデータ） (2023-12-29T03:00:04Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。