Fugu-MT 論文翻訳(概要): Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces

論文の概要: Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces

arxiv url: http://arxiv.org/abs/2605.14786v1
Date: Thu, 14 May 2026 12:55:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-15 21:45:34.829645
Title: Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces
Title（参考訳）: UIトレースによるLDMブラウザエージェントのフィンガープリント
Authors: William Lugoloobi, Samuelle Marro, Jabez Magomere, Joss Wright, Chris Russell,
Abstract要約: エージェントのアクションとインタラクションのタイミングは、受動的JavaScriptトラッカーによってキャプチャされ、F1が最大96%の基盤モデルを特定するのに十分であることを示す。私たちはハーネスとラベル付きエージェントトレースのコーパスをリリースします。
参考スコア（独自算出の注目度）: 5.370915507935483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As LLM-based agents increasingly browse the web on users' behalf, a natural question arises: can websites passively identify which underlying model powers an agent? Doing so would represent a significant security risk, enabling targeted attacks tailored to known model vulnerabilities. Across 14 frontier LLMs and four web environments spanning information retrieval and shopping tasks, we show that an agent's actions and interaction timings, captured via a passive JavaScript tracker, are sufficient to identify the underlying model with up to 96\% F1. We formalise this attack surface by demonstrating that classifiers trained on agent actions generalise across model sizes and families. We further show that strong classifiers can be trained from few interaction traces and that agent identity can be inferred early within an episode. Injecting randomised timing delays between actions substantially degrades classifier performance, but does not provide robust protection: a classifier retrained on delayed traces largely recovers performance. We release our harness and a labelled corpus of agent traces \href{https://github.com/KabakaWilliam/known_actions}{here}.
Abstract（参考訳）: LLMベースのエージェントがユーザの代理としてWebをますます閲覧するようになると、自然な疑問が生まれます。そうすることで、既知のモデル脆弱性に合わせたターゲットアタックが可能になる。情報検索とショッピングタスクにまたがる14のフロンティアLCMと4つのWeb環境にまたがって、受動的JavaScriptトラッカーによってキャプチャされたエージェントのアクションとインタラクションのタイミングは、96\% F1の基盤モデルを特定するのに十分であることを示す。この攻撃面をモデルサイズや家族にまたがってエージェントアクションで訓練された分類器が一般化することを示すことで定式化する。さらに,少ない相互作用トレースから強力な分類器を訓練し,エピソードの早期にエージェントの同一性を推定できることも示す。動作間のランダムなタイミング遅延を注入すると、分類器の性能は著しく低下するが、堅牢な保護は提供されない。我々はハーネスとラベル付きエージェントトレースのコーパスを公開します。

関連論文リスト

WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文参考訳（メタデータ） (2026-04-14T04:50:35Z)
OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文参考訳（メタデータ） (2026-02-13T21:32:32Z)
The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。 CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文参考訳（メタデータ） (2025-12-01T07:05:23Z)
Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文参考訳（メタデータ） (2025-10-06T23:09:18Z)
BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。 BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文参考訳（メタデータ） (2025-08-11T16:04:47Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。