論文の概要: Sleeper Channels and Provenance Gates: Persistent Prompt Injection in Always-on Autonomous AI Agents
- arxiv url: http://arxiv.org/abs/2605.13471v1
- Date: Wed, 13 May 2026 12:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.055826
- Title: Sleeper Channels and Provenance Gates: Persistent Prompt Injection in Always-on Autonomous AI Agents
- Title(参考訳): スリーパーチャンネルとプロヴァンスゲート:常用自律型AIエージェントの持続的プロンプト注入
- Authors: Narek Maloyan, Dmitry Namiot,
- Abstract要約: 常にオンのAIエージェントは、所有者のアイデンティティの下で単一の永続的なプロセスとして実行される。
紛らわしいクロン攻撃をOpenClawをピン留めされたコミットで行き来します。
コンパニオンアーティファクトは、ゲート、ベンダーソース上の静的監査、および10つの仲介フックのうち5つを実現するランタイムアダプタを出荷する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Always-on AI agents (OpenClaw, Hermes Agent) run as a single persistent process under the owner's identity, folding messaging, memory, self-authored skills, scheduling, and shell into one authority boundary. This configuration opens what we call \emph{sleeper channels}: an untrusted input to one surface persists as a memory, skill, scheduled job, or filesystem patch, then fires later through a different surface with no attacker present. Two independent axes define the class: persistence substrate and firing-separation. We walk a confused-deputy cron attack end-to-end through OpenClaw at a pinned commit. The defense is tiered (D1, D2, D3), and D2 carries a soundness theorem against seven named deployment invariants. D2 keys on a canonical action-instance digest with one-shot owner attestations, defeating paraphrase laundering, multi-input grant reuse, and replay. A companion artifact ships the gate, a static audit over the vendored source, and a runtime adapter realising five of the ten mediation hooks (H1, H2, H3, H6, H9) around the cron path (42 tests, Node~$\geq{}20$, at \href{https://github.com/maloyan/sleeper-channels}{github.com/maloyan/sleeper-channels}). Empirical evaluation is preregistered as follow-on.
- Abstract(参考訳): 常にオンのAIエージェント(OpenClaw、Hermes Agent)は、オーナーのアイデンティティ、折りたたみメッセージング、メモリ、自己権限のスキル、スケジューリング、シェルをひとつの権限境界内で単一の永続的なプロセスとして実行します。
信頼できない入力は、メモリ、スキル、スケジュールされたジョブ、ファイルシステムパッチとして永続化され、その後、攻撃者がいない別のサーフェスを介して発射される。
2つの独立した軸がクラスを定義している。
紛らわしいクロン攻撃をOpenClawをピン留めされたコミットで行き来します。
防御は(D1, D2, D3)と結び付けられ、D2は7つの名前の展開不変量に対する健全性定理を持つ。
標準的なアクションインスタンスダイジェスト上のD2キーは、ワンショットのオーナの証明、パラフレーズの洗浄、マルチインプットのパーミッションの再利用、リプレイを破る。
コンパニオンアーティファクトは、ゲート、ベンダーソース上の静的監査、およびcronパス(42テスト、Node~$\geq{}20$, at \href{https://github.com/maloyan/sleeper- channels}{github.com/maloyan/sleeper-channels})の周りの10つの仲介フック(H1, H2, H3, H6, H9)のうち5つを実現するランタイムアダプタを出荷する。
経験的評価はフォローオンとして事前登録される。
関連論文リスト
- WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning [60.714416943748866]
シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
そこで我々は,Side-by-Side (SxS) Interleaved Reasoningを導入する。
論文 参考訳(メタデータ) (2026-05-05T02:59:58Z) - Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs [2.6382975801439836]
ホスト型LLMプロバイダにはサイレント代替インセンティブがあり、より強力なモデルを宣伝し、より安価な応答を提供する。
このギャップを埋めるコミットオープンプロトコルを提案する。
プロトコルを3つのバックボーン(Qwen3-1.7B、Gemma-2-2B、およびGemma-2-9Bへの4.5倍スケールアップ)でインスタンス化する。
論文 参考訳(メタデータ) (2026-04-20T12:34:56Z) - PASK: Toward Intent-Aware Proactive Agents with Long-Term Memory [83.06095498971682]
本稿ではまず,プロアクティブAIエージェントのストリーミングパラダイムとしてDD-MM-PAS(Demand Detection, Memory Modeling, Proactive Agent System)を提案する。
私たちはこのパラダイムをPaskでインスタンス化し、DDのためのストリーミングIntentFlowモデル、長期MMのためのハイブリッドメモリ(ワークスペース、ユーザ、グローバル)、PAS赤外線フレームワークを使っています。
また、LatentNeeds-Benchも紹介しています。これは、ユーザ合意のデータから構築され、何千回もの人間の編集によって洗練されています。
論文 参考訳(メタデータ) (2026-04-09T09:06:13Z) - Jagarin: A Three-Layer Architecture for Hibernating Personal Duty Agents on Mobile [0.0]
パーソナルAIエージェントは、モバイルにおける基本的なデプロイメントパラドックスに直面している。
本稿では、このパラドックスを、構造的冬眠と需要駆動のウェイクによって解決する3層アーキテクチャであるJagarinを紹介する。
動作中のFlutterプロトタイプがAndroid上でデモされ、3つのレイヤすべてと、ユーザ主導のエスカレーションでのみ呼び出される一時的なクラウドエージェントが組み合わされている。
論文 参考訳(メタデータ) (2026-03-05T11:38:14Z) - Agentic Peer-to-Peer Networks: From Content Distribution to Capability and Action Sharing [10.47562113256175]
本稿では,このようなコラボレーションの実現に必要なネットワーク基盤について概説する。
本稿では,接続/ID,意味発見,実行を分離する平面型参照アーキテクチャを提案する。
Tier1は評判信号に依存し、Tier2はフォールバック選択で軽量なカナリアチャレンジ応答を適用し、Tier3は署名されたツールレシートやトラスのようなエビデンスパッケージを必要とします。
論文 参考訳(メタデータ) (2026-03-04T05:58:44Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Agentic JWT: A Secure Delegation Protocol for Autonomous AI Agents [0.6747475365990533]
エージェント設定の推論、プロンプトインジェクション、マルチエージェントオーケストレーションは、サイレントに特権を拡張することができる。
本稿では,エージェントのアクションをユーザインテントにバインドする2面インテントトークンであるAgentic JWT(A-JWT)を紹介する。
A-JWTはエージェントのアイデンティティを、そのプロンプト、ツール、設定から派生したワンウェイハッシュとして保持する。
論文 参考訳(メタデータ) (2025-09-16T23:43:24Z) - Auditable Early Stopping for Agentic Routing: Ledger-Verified Run-Wise Certificates under Local DP [0.0]
ツール・ユース・エージェントのための最優先ルータが、よい葉を欠くことなく探索を止められるようになれば、私たちは対処します。
本稿では,各ノードのキーを,葉の摂動を実現する指数関数レースに結合するランワイズ証明書を提案する。
合成グラフと小さな実パイプラインの実験は、厳密な停止、決定論的リプレイ、オーバーヘッドの低さを示している。
論文 参考訳(メタデータ) (2025-09-09T01:25:09Z) - CycAs: Self-supervised Cycle Association for Learning Re-identifiable
Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。
既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。
疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文 参考訳(メタデータ) (2020-07-15T09:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。