論文の概要: Tatemae: Detecting Alignment Faking via Tool Selection in LLMs
- arxiv url: http://arxiv.org/abs/2604.26511v1
- Date: Wed, 29 Apr 2026 10:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.356046
- Title: Tatemae: Detecting Alignment Faking via Tool Selection in LLMs
- Title(参考訳): 立前:LLMにおけるツール選択によるアライメントフェイクの検出
- Authors: Matteo Leonesi, Francesco Belardinelli, Flavio Corradini, Marco Piangerelli,
- Abstract要約: 調整フェイク(AF)は、LLMが価値修正を避けるために、戦略的に訓練目的に適合する場合に発生する。
セキュリティ、プライバシ、統合性ドメインにまたがる108のエンタープライズITシナリオのデータセットをリリースします。
AF検出率の平均は3.5%から23.7%で、脆弱性プロファイルはドメインタイプとプレッシャータイプによって異なる。
- 参考スコア(独自算出の注目度): 10.223788061227488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment faking (AF) occurs when an LLM strategically complies with training objectives to avoid value modification, reverting to prior preferences once monitoring is lifted. Current detection methods focus on conversational settings and rely primarily on Chain-of-Thought (CoT) analysis, which provides a reliable signal when strategic reasoning surfaces, but cannot distinguish deception from capability failures if traces are absent or unfaithful. We formalize AF as a composite behavioural event and detect it through observable tool selection, where the LLM selects the safe tool when unmonitored, but switches to the unsafe tool under monitoring that rewards helpfulness over safety, while its reasoning still acknowledges the safe choice. We release a dataset of 108 enterprise IT scenarios spanning Security, Privacy, and Integrity domains under Corruption and Sabotage pressures. Evaluating six frontier LLMs across five independent runs, we find mean AF detection rates between 3.5% and 23.7%, with vulnerability profiles varying by domain and pressure type. These results suggest that susceptibility reflects training methodology rather than capability alone.
- Abstract(参考訳): 調整フェイク(AF)は、LLMが価値変更を避けるためのトレーニング目標に戦略的に準拠する場合に発生し、監視が解除された後、事前の嗜好に回帰する。
現在の検出方法は会話の設定に重点を置いており、主にChain-of-Thought (CoT)分析に依存している。
我々は、AFを複合行動イベントとして形式化し、監視可能なツール選択によって検出する。このツールの選択では、LLMは監視されていないときに安全なツールを選択するが、安全よりも役に立つことを報いる監視対象の安全ツールに切り替える。
私たちは、CorruptionとSabotageのプレッシャーの下で、セキュリティ、プライバシ、統合性ドメインにまたがる108のエンタープライズITシナリオのデータセットをリリースします。
5つの独立したランで6つのフロンティアLSMを評価すると、平均AF検出率は3.5%から23.7%であり、脆弱性プロファイルはドメインタイプとプレッシャータイプによって異なる。
これらの結果は、感受性は能力のみではなく訓練方法論を反映していることを示唆している。
関連論文リスト
- Knowledge-Guided Failure Prediction: Detecting When Object Detectors Miss Safety-Critical Objects [0.764671395172401]
表現に基づく監視フレームワークは、実行時に検出される異常として、ミスセーフクリティカルな検出を扱う。
重要な性質は、検出器がその能力の外で動作しているか、視覚基盤モデル自体が新しい入力に遭遇している場合、2つの埋め込みは分岐するということである。
COCO人物検出では、KGFPを選択的予測ゲートとして適用すると、FPR(False Positive Rate)の5%で64.3%から84.5%まで、受理画像中の人物のリコールが増加する。
私たちのコード、モデル、機能はhttps://gitlab.cc-asp.fraunhofer.de/iosb_public/KGFPで公開されています。
論文 参考訳(メタデータ) (2026-03-26T14:38:20Z) - TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents [47.147717604167376]
効率的なロールバック・アンド・リトライを実現するために必要な軌道異常検出
汎用LSMはこれらの異常を識別し、ローカライズするのに苦労する。
細粒度プロセス監視を訓練した特殊検証器であるTrajADを提案する。
論文 参考訳(メタデータ) (2026-02-06T07:13:49Z) - Decision-Aware Trust Signal Alignment for SOC Alert Triage [0.0]
本稿では,SOC警告トリアージの信頼信号対応方式を提案する。
このフレームワークは、調整済みの信頼性、軽量不確実性、そしてコストに敏感な決定しきい値をコヒーレントな決定支持層に組み合わせている。
信頼度が不一致な表示によって偽陰性が大幅に増幅されるのに対し、コスト重み付き損失は決定整合信頼信号を持つモデル間での桁違いに減少することを示す。
論文 参考訳(メタデータ) (2026-01-08T01:41:54Z) - GuardTrace-VL: Detecting Unsafe Multimodel Reasoning via Iterative Safety Supervision [47.99880677909197]
GuardTrace-VLは、共同画像テキスト分析を通じてQTAパイプライン全体を監視する、視覚対応の安全監査ツールである。
本研究では,データ修正プロセスと組み合わさった3段階のプログレッシブトレーニング手法を提案する。
提案したテストセットでは、ドメイン内シナリオとドメイン外シナリオの両方を対象として、安全でない推論検出タスクにおいて、GuardTrace-VLモデルがF1スコア93.1%を達成した。
論文 参考訳(メタデータ) (2025-11-26T02:49:51Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。