論文の概要: Constitutional Black-Box Monitoring for Scheming in LLM Agents
- arxiv url: http://arxiv.org/abs/2603.00829v1
- Date: Sat, 28 Feb 2026 22:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.378258
- Title: Constitutional Black-Box Monitoring for Scheming in LLM Agents
- Title(参考訳): LLMエージェントのスケジューリングのための構成ブラックボックスモニタリング
- Authors: Simon Storf, Rich Barton-Cooper, James Peters-Gill, Marius Hobbhahn,
- Abstract要約: 我々は言語モデルを用いて不審な行為に対するエージェントの行動を調べる。
本研究では,外部観測可能な入力と出力のみを用いて,スケジューリングを検出する構成的ブラックボックスモニタについて検討する。
我々の設定では、より広範な最適化の結果と一致する単純なプロンプトスイープによって、パフォーマンスが急速に飽和していることが分かりました。
- 参考スコア(独自算出の注目度): 1.4619913143519836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe deployment of Large Language Model (LLM) agents in autonomous settings requires reliable oversight mechanisms. A central challenge is detecting scheming, where agents covertly pursue misaligned goals. One approach to mitigating such risks is LLM-based monitoring: using language models to examine agent behaviors for suspicious actions. We study constitutional black-box monitors: prompted classifiers that detect scheming using only externally observable inputs and outputs, optimized on synthetic data generated from natural-language behavior specifications. We introduce two pipelines for generating synthetic agent trajectories, STRIDE (iterative refinement) and Gloom (agent-environment simulation), from which we generate 1,000 samples each. We optimize frontier LLM monitors on these datasets via prompt sweeps, human refinement, and automated prompt optimization, and evaluate performance on 7,500 held-out trajectories from ControlArena, a suite of grounded environments where agents operate in more realistic contexts. Our results demonstrate that monitors selected purely on synthetic data can generalize to more realistic environments, capturing a meaningful scheming signal. However, we find that performance saturates quickly in our setting, with simple prompt sweeps matching the results of more extensive optimization. Pushing beyond this limit yields no further improvements and instead leads to overfitting.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの自律的デプロイには,信頼性の高い監視機構が必要である。
中心的な課題は、エージェントが不一致の目標を隠蔽的に追求するスケジュールを検出することである。
このようなリスクを軽減するひとつのアプローチは、言語モデルを使用して不審な行為に対するエージェントの振る舞いを調べる、LLMベースの監視である。
本研究では,外部観測可能な入力と出力のみを用いてスケジューリングを検知し,自然言語の振る舞い仕様から生成された合成データに最適化した構成的ブラックボックスモニタについて検討する。
我々は,合成剤軌道を生成するための2つのパイプライン,STRIDE (iterative refinement) とGloom (agent-environment Simulation) を導入し,それぞれ1,000個のサンプルを生成する。
我々は,これらのデータセット上のフロンティアLDMモニタを,プロンプトスイープ,ヒトのリファインメント,自動プロンプト最適化を通じて最適化し,エージェントがより現実的な状況で操作する地上環境であるControlArenaの7,500個のホールアウトトラジェクトリのパフォーマンスを評価する。
以上の結果から, 合成データから選択したモニタは, より現実的な環境に一般化し, 有意義なスケジュール信号の取得が可能であることが示唆された。
しかし、我々の設定では、より広範な最適化の結果と一致する単純なプロンプトスイープによって、パフォーマンスが急速に飽和していることがわかりました。
この制限を越えると、さらなる改善は得られず、代わりに過度に適合する。
関連論文リスト
- ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-02-06T19:55:26Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - CORTEX: Collaborative LLM Agents for High-Stakes Alert Triage [10.088447487211893]
SOC(Security Operations Centers)は、毎日何万ものアラートに圧倒されている。
この過負荷は警告の疲労を引き起こし、見過ごされた脅威やアナリストのバーンアウトにつながる。
警告トリアージのためのマルチエージェントLLMアーキテクチャであるCORTEXを提案する。
論文 参考訳(メタデータ) (2025-09-30T22:09:31Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability [0.6117371161379209]
大規模言語モデル(LLM)の展望は、動的でマルチエージェントなシステムへと急速にシフトします。
本稿では, トラクタブルな非対称な作業を実現するための検証フレームワークを提案する。
対象検定は全再生の12倍以上の速さで行うことができる。
論文 参考訳(メタデータ) (2025-09-14T03:30:06Z) - Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Adaptive Stress Testing Black-Box LLM Planners [6.506759042895813]
大規模言語モデル(LLM)は、意思決定タスク全体にわたる一般化の成功を最近証明した。
しかし、安全でないアウトプットと望ましくないアウトプットを幻覚させる傾向はリスクを引き起こす。
このような障害の検出は,特に安全クリティカルなシナリオにおいて必要である,と我々は主張する。
論文 参考訳(メタデータ) (2025-05-08T21:50:43Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。