論文の概要: Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
- arxiv url: http://arxiv.org/abs/2505.24878v1
- Date: Fri, 30 May 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.136677
- Title: Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
- Title(参考訳): Open CaptchaWorld: マルチモーダルLLMエージェントのテストとベンチマークのための総合的なWebベースプラットフォーム
- Authors: Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen,
- Abstract要約: Open CaptchaWorldは、MLLMを使用したエージェントの視覚的推論とインタラクション能力を評価するために特別に設計された、Webベースのベンチマークとプラットフォームである。
その結果,Browser-Use Openai-o3 による成功率は 40.0% である。
これはOpen CaptchaWorldを、現在のマルチモーダルエージェントの限界を診断し、より堅牢なマルチモーダル推論システムの開発を導くための重要なベンチマークとして強調している。
- 参考スコア(独自算出の注目度): 23.715342148854006
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: CAPTCHAs have been a critical bottleneck for deploying web agents in real-world applications, often blocking them from completing end-to-end automation tasks. While modern multimodal LLM agents have demonstrated impressive performance in static perception tasks, their ability to handle interactive, multi-step reasoning challenges like CAPTCHAs is largely untested. To address this gap, we introduce Open CaptchaWorld, the first web-based benchmark and platform specifically designed to evaluate the visual reasoning and interaction capabilities of MLLM-powered agents through diverse and dynamic CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225 CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth, which quantifies the number of cognitive and motor steps required to solve each puzzle. Experimental results show that humans consistently achieve near-perfect scores, state-of-the-art MLLM agents struggle significantly, with success rates at most 40.0% by Browser-Use Openai-o3, far below human-level performance, 93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing the limits of current multimodal agents and guiding the development of more robust multimodal reasoning systems. Code and Data are available at this https URL.
- Abstract(参考訳): CAPTCHAは、現実世界のアプリケーションにWebエージェントをデプロイする上で重要なボトルネックであり、しばしばエンドツーエンドの自動化タスクを終了することを妨げる。
現代のマルチモーダルLLMエージェントは、静的認識タスクにおいて印象的なパフォーマンスを示してきたが、CAPTCHAのような対話的で多段階の推論課題を扱う能力はほとんどテストされていない。
このギャップに対処するため,我々は,MLLMによるエージェントの視覚的推論とインタラクション能力の評価を多様かつダイナミックなCAPTCHAパズルを通じて行うように設計された,最初のWebベースのベンチマークおよびプラットフォームであるOpen CaptchaWorldを紹介した。
CAPTCHA Reasoning Depth(以下CAPTCHA Reasoning Depth)は,パズルの解答に必要な認知と運動のステップ数を定量化する手法である。
実験の結果、ヒトはほぼ完全なスコアを連続的に達成し、最先端のMLLMエージェントは、Browser-Use Openai-o3による成功率は少なくとも40.0%であり、人間レベルのパフォーマンスよりはるかに低い93.3%であることがわかった。
これはOpen CaptchaWorldを、現在のマルチモーダルエージェントの限界を診断し、より堅牢なマルチモーダル推論システムの開発を導くための重要なベンチマークとして強調している。
コードとデータは、このhttps URLで入手できる。
関連論文リスト
- VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - IllusionCAPTCHA: A CAPTCHA based on Visual Illusion [14.043017273813227]
我々は、"Human-Easy but AI-Hard"パラダイムを用いた新しいセキュリティメカニズムであるIllusionCAPTCHAを提案する。
その結果,初回試験では86.95%の参加者がCAPTCHAに合格し,他のCAPTCHAシステムよりも優れていた。
論文 参考訳(メタデータ) (2025-02-08T06:03:03Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - Oedipus: LLM-enchanced Reasoning CAPTCHA Solver [17.074422329618212]
OedipusはCAPTCHAの自動推論のための革新的なエンドツーエンドフレームワークである。
このフレームワークの中心は、複雑で人間に近いAIタスクを、シンプルでAIに近い一連のステップに分解する、新しい戦略である。
評価の結果,オエディプスはCAPTCHAを効果的に解決し,平均成功率は63.5%であった。
論文 参考訳(メタデータ) (2024-05-13T06:32:57Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - EnSolver: Uncertainty-Aware Ensemble CAPTCHA Solvers with Theoretical Guarantees [1.9649272351760065]
本研究では, 深層アンサンブル不確実性を利用して分布外CAPTCHAを検出し, スキップする解法であるEnrを提案する。
我々は,解法の有効性に新たな理論的限界を証明し,その応用を最先端のCAPTCHA解法で実証する。
論文 参考訳(メタデータ) (2023-07-27T20:19:11Z) - Robust Text CAPTCHAs Using Adversarial Examples [129.29523847765952]
Robust Text CAPTCHA (RTC) という,ユーザフレンドリーなテキストベースのCAPTCHA生成法を提案する。
第1段階では、前景と背景はランダムにサンプルされたフォントと背景画像で構成される。
第2段階では、CAPTCHAの解法をより妨害するために、高転送可能な逆攻撃をテキストCAPTCHAに適用する。
論文 参考訳(メタデータ) (2021-01-07T11:03:07Z) - Deep-CAPTCHA: a deep learning based CAPTCHA solver for vulnerability
assessment [1.027974860479791]
本研究では,CAPTCHAジェネレータシステムの弱点と脆弱性について検討する。
この目的を達成するために,Deep-CAPTCHAと呼ばれる畳み込みニューラルネットワークを開発した。
我々のネットワークのクラック精度は、数値およびアルファ数値テストデータセットの98.94%と98.31%のハイレートにつながる。
論文 参考訳(メタデータ) (2020-06-15T11:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。