論文の概要: ASSURE: Metamorphic Testing for AI-powered Browser Extensions
- arxiv url: http://arxiv.org/abs/2507.05307v1
- Date: Mon, 07 Jul 2025 09:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.256329
- Title: ASSURE: Metamorphic Testing for AI-powered Browser Extensions
- Title(参考訳): ASSURE: AIによるブラウザ拡張のためのメタモルフィックテスト
- Authors: Xuanqi Gao, Juan Zhai, Shiqing Ma, Siyi Xie, Chao Shen,
- Abstract要約: 従来のブラウザ拡張テストアプローチでは、AIによる拡張に固有の非決定的な振る舞い、コンテキスト感度、複雑なWeb環境の統合に対処できない。
本稿では,AIを利用したブラウザエクステンション用に設計されたモジュール型自動テストフレームワークASSUREを紹介する。
ASSUREは手動によるアプローチと比較してテストのスループットを6.4倍改善し、平均12.4分以内に重大なセキュリティ脆弱性を検出する。
- 参考スコア(独自算出の注目度): 27.444724767037922
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The integration of Large Language Models (LLMs) into browser extensions has revolutionized web browsing, enabling sophisticated functionalities like content summarization, intelligent translation, and context-aware writing assistance. However, these AI-powered extensions introduce unprecedented challenges in testing and reliability assurance. Traditional browser extension testing approaches fail to address the non-deterministic behavior, context-sensitivity, and complex web environment integration inherent to LLM-powered extensions. Similarly, existing LLM testing methodologies operate in isolation from browser-specific contexts, creating a critical gap in effective evaluation frameworks. To bridge this gap, we present ASSURE, a modular automated testing framework specifically designed for AI-powered browser extensions. ASSURE comprises three principal components: (1) a modular test case generation engine that supports plugin-based extension of testing scenarios, (2) an automated execution framework that orchestrates the complex interactions between web content, extension processing, and AI model behavior, and (3) a configurable validation pipeline that systematically evaluates behavioral consistency and security invariants rather than relying on exact output matching. Our evaluation across six widely-used AI browser extensions demonstrates ASSURE's effectiveness, identifying 531 distinct issues spanning security vulnerabilities, metamorphic relation violations, and content alignment problems. ASSURE achieves 6.4x improved testing throughput compared to manual approaches, detecting critical security vulnerabilities within 12.4 minutes on average. This efficiency makes ASSURE practical for integration into development pipelines, offering a comprehensive solution to the unique challenges of testing AI-powered browser extensions.
- Abstract(参考訳): 大規模言語モデル(LLM)をブラウザ拡張に統合することで、Webブラウジングが革新し、コンテンツの要約、インテリジェント翻訳、コンテキスト対応の書き込み支援といった高度な機能を実現した。
しかし、これらのAIを利用した拡張は、テストと信頼性の保証において前例のない課題をもたらす。
従来のブラウザ拡張テストアプローチでは、LLMベースの拡張に固有の非決定的動作、コンテキスト感度、複雑なWeb環境の統合に対処できない。
同様に、既存のLLMテスト手法はブラウザ固有のコンテキストから分離して動作し、効果的な評価フレームワークにおいて重要なギャップを生じさせる。
このギャップを埋めるために、AIベースのブラウザ拡張用に特別に設計されたモジュール化された自動テストフレームワークであるASSUREを紹介します。
ASSUREは,(1)プラグインベースのテストシナリオの拡張をサポートするモジュール型テストケース生成エンジン,(2)Webコンテンツ,拡張処理,AIモデル間の複雑なインタラクションをオーケストレーションする自動実行フレームワーク,(3)正確な出力マッチングに頼るのではなく,行動整合性とセキュリティ不変性を体系的に評価する構成可能な検証パイプラインの3つの主要コンポーネントから構成される。
広く使用されている6つのAIブラウザエクステンションに対する評価は、ASSUREの有効性を示し、セキュリティ脆弱性、メタモルフィック関係違反、コンテンツアライメント問題にまたがる531の異なる問題を特定します。
ASSUREは手動によるアプローチと比較してテストのスループットを6.4倍改善し、平均12.4分以内に重大なセキュリティ脆弱性を検出する。
この効率性により、ASSUREは開発パイプラインへの統合に実用的になり、AIベースのブラウザ拡張をテストするというユニークな課題に対する包括的なソリューションを提供する。
関連論文リスト
- OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AI5GTest: AI-Driven Specification-Aware Automated Testing and Validation of 5G O-RAN Components [1.1879716317856948]
AI5GTest - AIによる仕様対応テストフレームワーク。
O-RANコンポーネントの検証を自動化するように設計されている。
従来の手動の手法に比べて、全体のテスト実行時間が大幅に削減されている。
論文 参考訳(メタデータ) (2025-06-11T18:49:57Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。
この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。
その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文 参考訳(メタデータ) (2023-09-27T20:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。