論文の概要: Next-Gen CAPTCHAs: Leveraging the Cognitive Gap for Scalable and Diverse GUI-Agent Defense
- arxiv url: http://arxiv.org/abs/2602.09012v1
- Date: Mon, 09 Feb 2026 18:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.437996
- Title: Next-Gen CAPTCHAs: Leveraging the Cognitive Gap for Scalable and Diverse GUI-Agent Defense
- Title(参考訳): 次世代CAPTCHA: スケーラブルおよび多言語GUI-Agentディフェンスのための認知ギャップの活用
- Authors: Jiacheng Liu, Yaxin Luo, Jiacheng Cui, Xinyi Shang, Xiaohan Zhao, Zhiqiang Shen,
- Abstract要約: 我々は次世代のWebを高度なエージェントに対してセキュアにするためのスケーラブルな防御フレームワークであるNext-Gen CAPTCHAを紹介する。
静的データセットとは異なり、我々のベンチマークは堅牢なデータ生成パイプラインの上に構築されています。
我々は、対話的知覚、記憶、意思決定、行動において、永続的な人間エージェント「認知ギャップ」を利用する。
- 参考スコア(独自算出の注目度): 39.68941971572086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of GUI-enabled agents has rendered traditional CAPTCHAs obsolete. While previous benchmarks like OpenCaptchaWorld established a baseline for evaluating multimodal agents, recent advancements in reasoning-heavy models, such as Gemini3-Pro-High and GPT-5.2-Xhigh have effectively collapsed this security barrier, achieving pass rates as high as 90% on complex logic puzzles like "Bingo". In response, we introduce Next-Gen CAPTCHAs, a scalable defense framework designed to secure the next-generation web against the advanced agents. Unlike static datasets, our benchmark is built upon a robust data generation pipeline, allowing for large-scale and easily scalable evaluations, notably, for backend-supported types, our system is capable of generating effectively unbounded CAPTCHA instances. We exploit the persistent human-agent "Cognitive Gap" in interactive perception, memory, decision-making, and action. By engineering dynamic tasks that require adaptive intuition rather than granular planning, we re-establish a robust distinction between biological users and artificial agents, offering a scalable and diverse defense mechanism for the agentic era.
- Abstract(参考訳): GUI対応エージェントの急速な進化により、従来のCAPTCHAは時代遅れになった。
OpenCaptchaWorldのような以前のベンチマークはマルチモーダルエージェントを評価するためのベースラインを確立していたが、Gemini3-Pro-HighやGPT-5.2-Xhighのような推論量の多いモデルの最近の進歩は、このセキュリティ障壁を事実上崩壊させ、"Bingo"のような複雑な論理パズルで90%のパスレートを達成した。
そこで我々は次世代のWebを高度なエージェントに対してセキュアにするためのスケーラブルな防御フレームワークであるNext-Gen CAPTCHAを紹介した。
静的データセットとは異なり、我々のベンチマークは堅牢なデータ生成パイプライン上に構築されており、大規模でスケーラブルな評価、特にバックエンドをサポートする型では、効果的に非バウンドなCAPTCHAインスタンスを生成することができる。
我々は、対話的知覚、記憶、意思決定、行動において、永続的な人間エージェント「認知ギャップ」を利用する。
粒度の計画よりも適応的な直感を必要とする動的タスクをエンジニアリングすることで、我々は生物と人工エージェントの堅牢な区別を再確立し、エージェント時代のスケーラブルで多様な防御メカニズムを提供する。
関連論文リスト
- AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems [52.65695508605237]
我々は、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準に基づいて、アプリケーション中心でホワイトボックスのAI-NativeベンチマークスイートであるAI-NativeBenchを紹介する。
エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。
この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2026-01-14T11:32:07Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - RoBCtrl: Attacking GNN-Based Social Bot Detectors via Reinforced Manipulation of Bots Control Interaction [51.46634975923564]
本稿では,ソーシャルボット制御攻撃(RoBCtrl)のための対向型マルチエージェント強化学習フレームワークを提案する。
具体的には、拡散モデルを用いて、既存のアカウントデータを小さな修正で再構築することで、高忠実度ボットアカウントを生成する。
次に,MARL(Multi-Agent Reinforcement Learning)法を用いて,ボットの逆動作をシミュレートする。
論文 参考訳(メタデータ) (2025-10-16T02:41:49Z) - Spatial CAPTCHA: Generatively Benchmarking Spatial Reasoning for Human-Machine Differentiation [15.668734718800065]
本研究では,人間とMLLMの空間的推論における基本的差異を生かした,新しい人間検証フレームワークを提案する。
現代のAIに弱い低レベルの知覚タスクに依存する既存のCAPTCHAとは異なり、空間CAPTCHAは幾何学的推論、視点取り、精神的回転を必要とする動的質問を生成する。
対応するベンチマークであるSpatial-CAPTCHA-Benchでは、人間が10の最先端MLLMをはるかに上回り、最高のモデルは31.0%のPass@1精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-10-04T16:19:21Z) - A Hybrid CAPTCHA Combining Generative AI with Keystroke Dynamics for Enhanced Bot Detection [0.0]
本稿では,Large Language Models (LLMs) がもたらす認知課題とキーストローク力学の行動バイオメトリックス解析を相乗化するハイブリッドCAPTCHAシステムを提案する。
提案手法は,ロボット入力と人間のパターンを区別するために,ユーザのタイピングリズムを解析しながら,人間にとって自明だが自動エージェントには自明な動的予測不可能な質問を生成する。
論文 参考訳(メタデータ) (2025-09-29T17:56:13Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - BounTCHA: A CAPTCHA Utilizing Boundary Identification in Guided Generative AI-extended Videos [4.873950690073118]
ボットは、既存のCAPTCHAシステムの多くをバイパスし、Webアプリケーションに重大なセキュリティ上の脅威を生じさせている。
ビデオのトランジションやディスラプションにおける境界に対する人間の認識を活用するCAPTCHA機構であるBounTCHAの設計と実装を行う。
我々は,境界同定における人間の時間偏差データ収集のためのプロトタイプを開発し,実験を行った。
論文 参考訳(メタデータ) (2025-01-30T18:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。