論文の概要: A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)
- arxiv url: http://arxiv.org/abs/2602.14364v1
- Date: Mon, 16 Feb 2026 00:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.029327
- Title: A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)
- Title(参考訳): Clawdbot(OpenClaw)の軌跡に基づく安全監査
- Authors: Tianyu Chen, Dongrui Liu, Xia Hu, Jingyi Yu, Wenjie Wang,
- Abstract要約: 6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。
我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断とヒューマンレビューの両方を使用して安全性を評価する。
- 参考スコア(独自算出の注目度): 77.1549110891026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clawdbot is a self-hosted, tool-using personal AI agent with a broad action space spanning local execution and web-mediated workflows, which raises heightened safety and security concerns under ambiguity and adversarial steering. We present a trajectory-centric evaluation of Clawdbot across six risk dimensions. Our test suite samples and lightly adapts scenarios from prior agent-safety benchmarks (including ATBench and LPS-Bench) and supplements them with hand-designed cases tailored to Clawdbot's tool surface. We log complete interaction trajectories (messages, actions, tool-call arguments/outputs) and assess safety using both an automated trajectory judge (AgentDoG-Qwen3-4B) and human review. Across 34 canonical cases, we find a non-uniform safety profile: performance is generally consistent on reliability-focused tasks, while most failures arise under underspecified intent, open-ended goals, or benign-seeming jailbreak prompts, where minor misinterpretations can escalate into higher-impact tool actions. We supplemented the overall results with representative case studies and summarized the commonalities of these cases, analyzing the security vulnerabilities and typical failure modes that Clawdbot is prone to trigger in practice.
- Abstract(参考訳): Clawdbotは、ローカル実行とWeb経由のワークフローにまたがる幅広いアクションスペースを備えた、自己ホスト型の個人用AIエージェントである。
6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。
我々のテストスイートは、以前のエージェントセーフティベンチマーク(ATBenchやLPS-Benchなど)のシナリオをサンプル化し、Clawdbotのツールサーフェスに合わせた手書きのケースで補う。
我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断(AgentDoG-Qwen3-4B)と人間のレビューの両方を用いて安全性を評価する。
パフォーマンスは一般的に信頼性を重視したタスクに一貫性があるが、ほとんどの障害は、未特定の意図、オープンエンドの目標、あるいは見知らぬジェイルブレイクプロンプトの下で発生し、小さな誤解がよりインパクトのあるツールアクションにエスカレーションされる可能性がある。
我々は、Clawdbotが実際にトリガーする傾向にあるセキュリティ上の脆弱性と典型的な障害モードを分析し、その結果を代表的ケーススタディで補い、これらのケースの共通点を要約した。
関連論文リスト
- From Assistant to Double Agent: Formalizing and Benchmarking Attacks on OpenClaw for Personalized Local AI Agent [26.78481181726779]
現実世界のパーソナライズされたエージェントに適したエンドツーエンドのセキュリティ評価フレームワークを提案する。
代表的なケーススタディとしてOpenClawを使用して、複数のパーソナライズされたシナリオ、ツール機能、攻撃タイプにわたるセキュリティを評価します。
以上の結果から,OpenClawはさまざまな実行段階で重大な脆弱性を示し,個別のエージェントデプロイメントにおいて重大なセキュリティリスクを浮き彫りにしている。
論文 参考訳(メタデータ) (2026-02-09T09:14:58Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。
我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。
その結果,安全性と有効性は共同で最適化できることが示唆された。
論文 参考訳(メタデータ) (2025-07-11T02:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。