論文の概要: COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers
- arxiv url: http://arxiv.org/abs/2512.02318v1
- Date: Tue, 02 Dec 2025 01:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.673467
- Title: COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers
- Title(参考訳): COGNITION:マルチモーダルLCM CAPTCHAソリューションに対する評価から防御へ
- Authors: Junyu Wang, Changjia Zhu, Yuanbo Zhou, Lingyao Li, Xu He, Junjie Xiong,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、視覚CAPTCHAのセキュリティ保証を損なう。
実世界のCAPTCHAタスクタイプ18種を対象に,商用およびオープンソースMLLMを7種類評価した。
MLLMは認識指向のCAPTCHAタスクを人為的なコストとレイテンシで確実に解決できることを明らかにする。
- 参考スコア(独自算出の注目度): 17.70082722524941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies how multimodal large language models (MLLMs) undermine the security guarantees of visual CAPTCHA. We identify the attack surface where an adversary can cheaply automate CAPTCHA solving using off-the-shelf models. We evaluate 7 leading commercial and open-source MLLMs across 18 real-world CAPTCHA task types, measuring single-shot accuracy, success under limited retries, end-to-end latency, and per-solve cost. We further analyze the impact of task-specific prompt engineering and few-shot demonstrations on solver effectiveness. We reveal that MLLMs can reliably solve recognition-oriented and low-interaction CAPTCHA tasks at human-like cost and latency, whereas tasks requiring fine-grained localization, multi-step spatial reasoning, or cross-frame consistency remain significantly harder for current models. By examining the reasoning traces of such MLLMs, we investigate the underlying mechanisms of why models succeed/fail on specific CAPTCHA puzzles and use these insights to derive defense-oriented guidelines for selecting and strengthening CAPTCHA tasks. We conclude by discussing implications for platform operators deploying CAPTCHA as part of their abuse-mitigation pipeline.Code Availability (https://anonymous.4open.science/r/Captcha-465E/).
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル(MLLM)が視覚CAPTCHAのセキュリティ保証を損なうかを検討する。
市販のモデルを用いてCAPTCHA解決を安価に自動化できる攻撃面を同定する。
我々は,実世界のCAPTCHAタスクタイプ18件の商用およびオープンソースMLLMを主要な7つ評価し,シングルショットの精度,リトライの制限による成功,エンドツーエンドのレイテンシ,ソリューション毎のコストを評価した。
さらに,タスク固有のプロンプトエンジニアリングと数発のデモが解法の有効性に与える影響を解析する。
MLLMは認識指向および低応答CAPTCHAタスクを人為的なコストとレイテンシで確実に解くことができるのに対し、微粒なローカライゼーション、多段階空間推論、クロスフレーム整合性を必要とするタスクは、現在のモデルでは著しく困難である。
このようなMLLMの因果関係を調べることにより,特定のCAPTCHAパズルにおいてモデルが成功・失敗する理由を解明し,これらの知見を用いてCAPTCHAタスクの選択・強化のための防衛指向ガイドラインを導出する。
我々は、CAPTCHAを悪用緩和パイプラインの一部としてデプロイするプラットフォームオペレーターへの影響について論じる(https://anonymous.4open.science/r/Captcha-465E/)。
関連論文リスト
- Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents [23.715342148854006]
Open CaptchaWorldは、MLLMを使用したエージェントの視覚的推論とインタラクション能力を評価するために特別に設計された、Webベースのベンチマークとプラットフォームである。
その結果,Browser-Use Openai-o3 による成功率は 40.0% である。
これはOpen CaptchaWorldを、現在のマルチモーダルエージェントの限界を診断し、より堅牢なマルチモーダル推論システムの開発を導くための重要なベンチマークとして強調している。
論文 参考訳(メタデータ) (2025-05-30T17:59:55Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - IllusionCAPTCHA: A CAPTCHA based on Visual Illusion [14.043017273813227]
我々は、"Human-Easy but AI-Hard"パラダイムを用いた新しいセキュリティメカニズムであるIllusionCAPTCHAを提案する。
その結果,初回試験では86.95%の参加者がCAPTCHAに合格し,他のCAPTCHAシステムよりも優れていた。
論文 参考訳(メタデータ) (2025-02-08T06:03:03Z) - Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives [54.14429346914995]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)による複雑な問題を解決する重要な方法となっている。
本稿では,LLMタスクを能力,スキル,知識の観点から再考する理論モデルであるRe-TASKフレームワークを紹介する。
多様な領域にわたる実験は、Re-TASKの有効性を示す。
論文 参考訳(メタデータ) (2024-08-13T13:58:23Z) - Oedipus: LLM-enchanced Reasoning CAPTCHA Solver [17.074422329618212]
OedipusはCAPTCHAの自動推論のための革新的なエンドツーエンドフレームワークである。
このフレームワークの中心は、複雑で人間に近いAIタスクを、シンプルでAIに近い一連のステップに分解する、新しい戦略である。
評価の結果,オエディプスはCAPTCHAを効果的に解決し,平均成功率は63.5%であった。
論文 参考訳(メタデータ) (2024-05-13T06:32:57Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - A Survey of Adversarial CAPTCHAs on its History, Classification and
Generation [69.36242543069123]
本稿では, 逆CAPTCHAの定義を拡張し, 逆CAPTCHAの分類法を提案する。
また, 敵CAPTCHAの防御に使用可能な防御方法も分析し, 敵CAPTCHAに対する潜在的な脅威を示す。
論文 参考訳(メタデータ) (2023-11-22T08:44:58Z) - EnSolver: Uncertainty-Aware Ensemble CAPTCHA Solvers with Theoretical Guarantees [1.9649272351760065]
本研究では, 深層アンサンブル不確実性を利用して分布外CAPTCHAを検出し, スキップする解法であるEnrを提案する。
我々は,解法の有効性に新たな理論的限界を証明し,その応用を最先端のCAPTCHA解法で実証する。
論文 参考訳(メタデータ) (2023-07-27T20:19:11Z) - Robust Text CAPTCHAs Using Adversarial Examples [129.29523847765952]
Robust Text CAPTCHA (RTC) という,ユーザフレンドリーなテキストベースのCAPTCHA生成法を提案する。
第1段階では、前景と背景はランダムにサンプルされたフォントと背景画像で構成される。
第2段階では、CAPTCHAの解法をより妨害するために、高転送可能な逆攻撃をテキストCAPTCHAに適用する。
論文 参考訳(メタデータ) (2021-01-07T11:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。