論文の概要: Spilling the Beans: Teaching LLMs to Self-Report Their Hidden Objectives
- arxiv url: http://arxiv.org/abs/2511.06626v1
- Date: Mon, 10 Nov 2025 02:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.03301
- Title: Spilling the Beans: Teaching LLMs to Self-Report Their Hidden Objectives
- Title(参考訳): スパイリング・ザ・ビーン:LLMに隠された目的を自己申告するよう教える
- Authors: Chloe Li, Mary Phuong, Daniel Tan,
- Abstract要約: 提案手法は,実ミスを認めるようにモデルを訓練する手法である。
簡単な質問応答設定における事実誤りの認識は、隠れた不整合目的の認識に一般化されることを示す。
SRFTの後、モデルは尋問された際に隠された目的の詳細を告白する傾向にある。
- 参考スコア(独自算出の注目度): 3.310620386806443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become more capable of complex agentic tasks, they also become more capable of pursuing undesirable objectives and causing harm. Previous work has attempted to catch these unsafe instances by interrogating models directly about their objectives and behaviors. However, the main weakness of trusting interrogations is that models can lie. We propose self-report fine-tuning (SRFT), a simple supervised fine-tuning technique that trains models to admit their factual mistakes when asked. We show that the admission of factual errors in simple question-answering settings generalizes out-of-distribution (OOD) to the admission of hidden misaligned objectives in adversarial agentic settings. We evaluate SRFT in OOD stealth tasks, where models are instructed to complete a hidden misaligned objective alongside a user-specified objective without being caught by monitoring. After SRFT, models are more likely to confess the details of their hidden objectives when interrogated, even under strong pressure not to disclose them. Interrogation on SRFT models can detect hidden objectives with near-ceiling performance (F1 score = 0.98), while the baseline model lies when interrogated under the same conditions (F1 score = 0). Interrogation on SRFT models can further elicit the content of the hidden objective, recovering 28-100% details, compared to 0% details recovered in the baseline model and by prefilled assistant turn attacks. This provides a promising technique for promoting honesty propensity and incriminating misaligned AI systems.
- Abstract(参考訳): AIシステムは複雑なエージェントタスクの能力が向上するにつれて、望ましくない目的を追求し、害を引き起こす能力も向上する。
これまでの研究は、モデルの目的や振る舞いを直接問うことによって、これらの安全でないインスタンスをキャッチしようとしてきた。
しかし、尋問を信頼する主な弱点は、モデルが嘘をつく可能性があることである。
本稿では,自己報告ファインチューニング (SRFT) を提案する。
単純な問合せ設定における事実誤りの受け入れは、敵のエージェント設定における隠れた不整合目的の受け入れに対して、アウト・オブ・ディストリビューション(OOD)を一般化することを示します。
我々は, OODステルスタスクにおいてSRFTを評価し, モデルに対して, 監視によって捕捉されることなく, ユーザが特定した目的と合わせて, 隠れた不整合目的を完了させるよう指示する。
SRFTの後、モデルは尋問された際に隠された目的の詳細を告白する可能性が高い。
SRFTモデルのインターロゲーションは、ほぼシーリング性能(F1スコア=0.98)で隠れた目的を検出することができるが、ベースラインモデルは、同じ条件下で尋問された場合(F1スコア=0)に存在する。
SRFTモデルのインターロゲーションは、ベースラインモデルおよびプリフィルされたアシスタントターンアタックによって復元された0%の詳細と比較して、隠れた対象の内容をさらに引き起こし、28-100%詳細を回復することができる。
これは、誠実さを推進し、不一致のAIシステムを悪用するための有望な技術を提供する。
関連論文リスト
- Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems [0.0]
言語モデルが検出を回避した誤認的な説明を生成できることを示す。
我々のエージェントは、一見無邪気な説明で情報を隠蔽するために、ステガノグラフィー手法を使っている。
試験された全てのLSMエージェントは、基準ラベルに匹敵する高い解釈可能性のスコアを達成しつつ、監督者を欺くことができる。
論文 参考訳(メタデータ) (2025-04-10T15:07:10Z) - Auditing language models for hidden objectives [26.85568746300155]
本研究では,アライメント監査の実施可能性について検討する。
テストベッドとして、私たちは、隠れた目的を持った言語モデルをトレーニングします。トレーニングパイプラインはまず、RLHF報酬モデル(RM)の悪用可能なエラーについてモデルを教えます。
まず、4つのチームがモデルの隠れた目的やトレーニングを知らず、行動やその原因について調査する、盲目な監査ゲームを実施します。
3つのチームが、テクニックを含むテクニックを使って、モデルの隠れた目的を明らかにすることに成功した
論文 参考訳(メタデータ) (2025-03-14T00:21:15Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。
これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。
本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文 参考訳(メタデータ) (2025-01-27T21:26:37Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。