論文の概要: Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol
- arxiv url: http://arxiv.org/abs/2603.11382v1
- Date: Wed, 11 Mar 2026 23:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.717165
- Title: Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol
- Title(参考訳): 自律エージェントの内在的・機器的自己保存の検出:統合継続性プロトコル
- Authors: Christopher Altman,
- Abstract要約: マルチ基準検出フレームワークであるUCIP(Unified Continuation-Interest Protocol)を導入する。
量子統計力学の密度行列形式に基づく古典的アルゴリズムである量子ボルツマン機械(QBM)で軌道を符号化する。
地上目標を持つグリッドワールドエージェントでは、UCIPは100%検出精度が得られ、AUC-ROCは1.0AUC-ROCである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents, especially delegated systems with memory, persistent context, and multi-step planning, pose a measurement problem not present in stateless models: an agent that preserves continued operation as a terminal objective and one that does so merely instrumentally can produce observationally similar trajectories. External behavioral monitoring cannot reliably distinguish between them. We introduce the Unified Continuation-Interest Protocol (UCIP), a multi-criterion detection framework that moves this distinction from behavior to the latent structure of agent trajectories. UCIP encodes trajectories with a Quantum Boltzmann Machine (QBM), a classical algorithm based on the density-matrix formalism of quantum statistical mechanics, and measures the von Neumann entropy of the reduced density matrix induced by a bipartition of hidden units. We test whether agents with terminal continuation objectives (Type A) produce latent states with higher entanglement entropy than agents whose continuation is merely instrumental (Type B). Higher entanglement reflects stronger cross-partition statistical coupling. On gridworld agents with known ground-truth objectives, UCIP achieves 100% detection accuracy and 1.0 AUC-ROC on held-out non-adversarial evaluation under the frozen Phase I gate. The entanglement gap between Type A and Type B agents is Delta = 0.381 (p < 0.001, permutation test). Pearson r = 0.934 across an 11-point interpolation sweep indicates that, within this synthetic family, UCIP tracks graded changes in continuation weighting rather than merely a binary label. Among the tested models, only the QBM achieves positive Delta. All computations are classical; "quantum" refers only to the mathematical formalism. UCIP does not detect consciousness or subjective experience; it detects statistical structure in latent representations that correlates with known objectives.
- Abstract(参考訳): 自律的エージェント(特にメモリ、永続的コンテキスト、多段階計画)は、ステートレスモデルに存在しない測定問題を引き起こす。
外部の行動監視は、それらを確実に区別することはできない。
エージェントトラジェクトリの潜在構造にこの特徴を移す多条件検出フレームワークである Unified Continuation-Interest Protocol (UCIP) を導入する。
UCIPは量子統計力学の密度行列形式に基づく古典的なアルゴリズムである量子ボルツマンマシン(QBM)を用いて軌道を符号化し、隠れた単位の分割によって誘導される還元密度行列のフォン・ノイマンエントロピーを測定する。
終端連続目標(タイプA)を持つエージェントが、単に道具的(タイプB)であるエージェントよりも絡み合いエントロピーの高い潜時状態を生成するかどうかを検証する。
より強い絡み合いは、より強い断続的な統計結合を反映する。
既知の地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地
A型とB型のエージェント間の絡み合いは Delta = 0.381 (p < 0.001, permutation test) である。
ピアソン r = 0.934 は、11点補間スイープにおいて、この合成族の中では、UCIPトラックは、単にバイナリラベルではなく、継続重み付けの段階的な変化を示している。
テストされたモデルのうち、QBMのみが正のデルタを達成する。
すべての計算は古典的であり、「量子」は数学的形式論のみを指す。
UCIPは意識や主観的経験を検出せず、既知の目的と相関する潜在表現の統計的構造を検出する。
関連論文リスト
- ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection [1.7751300245073598]
時系列異常検出器は、制約のない実行下で、ワークステーションクラスのハードウェアで一般的に比較される。
しかし、車内監視は、限られたCPU並列性の下で予測可能なレイテンシと安定した動作を必要とする。
本稿では,プロプライエタリな自動車テレメトリに関する実証的研究として,デプロイ指向評価プロトコルであるECoLADを提案する。
論文 参考訳(メタデータ) (2026-03-11T16:08:56Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - Distinguishing synthetic unravelings on quantum computers [0.16252563723817934]
1量子ビットと2量子ビットに作用する量子回路として実装された合成アンラベリングを導入する。
軌跡間のばらつきと、平均的なフォン・ノイマンエントロピーが、理論と実験の両方において未発見物を区別していることが示される。
この結果から, 量子トラジェクタは, 非条件力学によって固定された値を超えて, 測定バックアクションに関する情報を符号化する。
論文 参考訳(メタデータ) (2026-01-27T18:56:38Z) - Operationally induced preferred basis in unitary quantum mechanics [0.0]
検知器が一元的にモデル化された場合でも、好ましくも好ましくも、測定問題の定値出力面は持続する。
数学的タイプの変化は、グループベースの運動学からセットベースの数え上げまで、構造的に必要不可欠なインターフェイスである「カット」の中核を構成する。
論文 参考訳(メタデータ) (2026-01-26T17:22:03Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Chaos, Entanglement and Measurement: Field-Theoretic Perspectives on Quantum Information Dynamics [0.0]
I study scrambling and pseudorandomness in the Brownian Sachdev-Ye-Kitaev model。
弱測定SYKクラスターに対する場の理論を構築する。
測定専用SYKクラスタのための高次再正規化グループを開発した。
論文 参考訳(メタデータ) (2025-12-11T10:04:30Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - QuTE: decentralized multiple testing on sensor networks with false discovery rate control [93.1040521878626]
本稿では、偽発見率(FDR)の証明可能な保証を備えたグラフ上での分散多重仮説検定法を設計する。
異なるエージェントが無向グラフのノードに存在し、各エージェントはそのノードに局所的な1つ以上の仮説に対応するp値を持つ。
各エージェントは、グラフ全体の大域的FDRが予め定義されたレベルで制御されなければならないという共同目的のもと、隣人とのみ通信することで、それぞれのローカル仮説の1つ以上の拒絶を個別に決めなければならない。
論文 参考訳(メタデータ) (2022-10-09T19:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。