論文の概要: When Convenience Becomes Risk: A Semantic View of Under-Specification in Host-Acting Agents
- arxiv url: http://arxiv.org/abs/2603.21231v1
- Date: Sun, 22 Mar 2026 13:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.302078
- Title: When Convenience Becomes Risk: A Semantic View of Under-Specification in Host-Acting Agents
- Title(参考訳): コンベニエンスがリスクになるとき--ホスト・アクティベーション・エージェントにおけるアンダー・スペクティフィケーションのセマンティックな視点
- Authors: Di Lu, Yongzhi Liao, Xutong Mu, Lele Zheng, Ke Cheng, Xuewen Dong, Yulong Shen, Jianfeng Ma,
- Abstract要約: ホストアクションエージェントは、ユーザが目標を指定し、システムがそれを実現する方法を決定する、便利なインタラクションモデルを約束する。
この利便性は、ゴール仕様におけるセマンティック・アンダー・セマンティクスという、異なるセキュリティ問題をもたらす、と我々は主張する。
本稿では, セマンティック・脅威モデル, セマンティック・リスク・コンプリート・パターンの分類を提示し, その現象をOpenClawを中心としたケーススタディと実行トレース分析を用いて研究する。
- 参考スコア(独自算出の注目度): 21.157505782385773
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Host-acting agents promise a convenient interaction model in which users specify goals and the system determines how to realize them. We argue that this convenience introduces a distinct security problem: semantic under-specification in goal specification. User instructions are typically goal-oriented, yet they often leave process constraints, safety boundaries, persistence, and exposure insufficiently specified. As a result, the agent must complete missing execution semantics before acting, and this completion can produce risky host-side plans even when the user-stated goal is benign. In this paper, we develop a semantic threat model, present a taxonomy of semantic-induced risky completion patterns, and study the phenomenon through an OpenClaw-centered case study and execution-trace analysis. We further derive defense design principles for making execution boundaries explicit and constraining risky completion. These findings suggest that securing host-acting agents requires governing not only which actions are allowed at execution time, but also how goal-only instructions are translated into executable plans.
- Abstract(参考訳): ホストアクションエージェントは、ユーザが目標を指定し、システムがそれを実現する方法を決定する、便利なインタラクションモデルを約束する。
この利便性は、ゴール仕様におけるセマンティック・アンダー・セマンティクスという、異なるセキュリティ問題をもたらす、と我々は主張する。
ユーザ指示は通常、目標指向だが、プロセス制約、安全性境界、永続性、エクスポージャーが不十分に指定されている場合が多い。
結果として、エージェントはアクションの前に実行のセマンティクスを完了しなければなりません。
本稿では, セマンティック・脅威モデルを開発し, セマンティック・リスク・コンプリート・パターンの分類を示し, その現象をOpenClawを中心としたケーススタディと実行・トレース分析を用いて研究する。
我々はさらに、実行境界を明確にし、リスクのある完了を制限するための防衛設計原則を導出する。
これらの知見は、ホストアクションエージェントの確保には、実行時にどのアクションが許可されるかだけでなく、ゴールのみの指示が実行可能な計画にどのように変換されるかの制御が必要であることを示唆している。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Autonomous Action Runtime Management(AARM):A System Specification for Securing AI-Driven Actions at Runtime [0.0]
本稿では,AI駆動型動作を実行時にセキュアにするためのオープン仕様であるAutonomous Action Management(AARM)を紹介する。
AARMは実行前にアクションをインターセプトし、セッションコンテキストを蓄積し、ポリシーと意図の整合性を評価し、承認決定を強制し、法医学的な再構築のための未確認のレシートを記録する。
AARMはモデルに依存しない、フレームワークに依存しない、ベンダーに依存しない、アクション実行を安定したセキュリティ境界として扱う。
論文 参考訳(メタデータ) (2026-02-10T05:57:30Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - GAVEL: Towards rule-based safety through activation monitoring [2.337566423505956]
大規模言語モデル(LLM)は、有害な行動を検出し予防するために、アクティベーションベースの監視とペアになってきています。
既存のアクティベーション安全性アプローチ、幅広い誤用データセットのトレーニング、精度の低下、柔軟性の制限、解釈可能性の欠如。
本稿では,サイバーセキュリティにおけるルール共有プラクティスにインスパイアされた,ルールベースのアクティベーション安全という新たなパラダイムを紹介する。
論文 参考訳(メタデータ) (2026-01-27T16:31:39Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Countermind: A Multi-Layered Security Architecture for Large Language Models [0.0]
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
論文 参考訳(メタデータ) (2025-10-13T18:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。