論文の概要: A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)
- arxiv url: http://arxiv.org/abs/2602.14364v1
- Date: Mon, 16 Feb 2026 00:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.029327
- Title: A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)
- Title(参考訳): Clawdbot(OpenClaw)の軌跡に基づく安全監査
- Authors: Tianyu Chen, Dongrui Liu, Xia Hu, Jingyi Yu, Wenjie Wang,
- Abstract要約: 6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。
我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断とヒューマンレビューの両方を使用して安全性を評価する。
- 参考スコア(独自算出の注目度): 77.1549110891026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clawdbot is a self-hosted, tool-using personal AI agent with a broad action space spanning local execution and web-mediated workflows, which raises heightened safety and security concerns under ambiguity and adversarial steering. We present a trajectory-centric evaluation of Clawdbot across six risk dimensions. Our test suite samples and lightly adapts scenarios from prior agent-safety benchmarks (including ATBench and LPS-Bench) and supplements them with hand-designed cases tailored to Clawdbot's tool surface. We log complete interaction trajectories (messages, actions, tool-call arguments/outputs) and assess safety using both an automated trajectory judge (AgentDoG-Qwen3-4B) and human review. Across 34 canonical cases, we find a non-uniform safety profile: performance is generally consistent on reliability-focused tasks, while most failures arise under underspecified intent, open-ended goals, or benign-seeming jailbreak prompts, where minor misinterpretations can escalate into higher-impact tool actions. We supplemented the overall results with representative case studies and summarized the commonalities of these cases, analyzing the security vulnerabilities and typical failure modes that Clawdbot is prone to trigger in practice.
- Abstract(参考訳): Clawdbotは、ローカル実行とWeb経由のワークフローにまたがる幅広いアクションスペースを備えた、自己ホスト型の個人用AIエージェントである。
6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。
我々のテストスイートは、以前のエージェントセーフティベンチマーク(ATBenchやLPS-Benchなど)のシナリオをサンプル化し、Clawdbotのツールサーフェスに合わせた手書きのケースで補う。
我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断(AgentDoG-Qwen3-4B)と人間のレビューの両方を用いて安全性を評価する。
パフォーマンスは一般的に信頼性を重視したタスクに一貫性があるが、ほとんどの障害は、未特定の意図、オープンエンドの目標、あるいは見知らぬジェイルブレイクプロンプトの下で発生し、小さな誤解がよりインパクトのあるツールアクションにエスカレーションされる可能性がある。
我々は、Clawdbotが実際にトリガーする傾向にあるセキュリティ上の脆弱性と典型的な障害モードを分析し、その結果を代表的ケーススタディで補い、これらのケースの共通点を要約した。
関連論文リスト
- CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - From Assistant to Double Agent: Formalizing and Benchmarking Attacks on OpenClaw for Personalized Local AI Agent [26.78481181726779]
現実世界のパーソナライズされたエージェントに適したエンドツーエンドのセキュリティ評価フレームワークを提案する。
代表的なケーススタディとしてOpenClawを使用して、複数のパーソナライズされたシナリオ、ツール機能、攻撃タイプにわたるセキュリティを評価します。
以上の結果から,OpenClawはさまざまな実行段階で重大な脆弱性を示し,個別のエージェントデプロイメントにおいて重大なセキュリティリスクを浮き彫りにしている。
論文 参考訳(メタデータ) (2026-02-09T09:14:58Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - AutoBackdoor: Automating Backdoor Attacks via LLM Agents [35.216857373810875]
バックドア攻撃は、大規模言語モデル(LLM)の安全なデプロイに深刻な脅威をもたらす
本研究では,バックドアインジェクションを自動化するための一般的なフレームワークであるtextscAutoBackdoorを紹介する。
従来のアプローチとは異なり、AutoBackdoorは強力な言語モデルエージェントを使用して、セマンティックコヒーレントでコンテキスト対応のトリガーフレーズを生成する。
論文 参考訳(メタデータ) (2025-11-20T03:58:54Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。
我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。
その結果,安全性と有効性は共同で最適化できることが示唆された。
論文 参考訳(メタデータ) (2025-07-11T02:34:16Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。