論文の概要: CAPTURE: A Benchmark and Evaluation for LVLMs in CAPTCHA Resolving
- arxiv url: http://arxiv.org/abs/2512.11323v1
- Date: Fri, 12 Dec 2025 06:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.68306
- Title: CAPTURE: A Benchmark and Evaluation for LVLMs in CAPTCHA Resolving
- Title(参考訳): CAPTURE:CAPTCHA解決におけるLVLMのベンチマークと評価
- Authors: Jianyi Zhang, Ziyin Zhou, Xu Ji, Shizhao Liu, Zhangchi Zhao,
- Abstract要約: 大規模ビジュアル言語モデル(LVLM)のためのCAPTURE CAPTCHAベンチマークを導入する。
ベンチマークでは、31ベンダから4つのCAPTCHAタイプと25のサブタイプを対象とする。
このベンチマークで評価すると、現在のLVLMはCAPTCHAの解法の性能が劣っていることが分かる。
- 参考スコア(独自算出の注目度): 10.62647293259843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefiting from strong and efficient multi-modal alignment strategies, Large Visual Language Models (LVLMs) are able to simulate human visual and reasoning capabilities, such as solving CAPTCHAs. However, existing benchmarks based on visual CAPTCHAs still face limitations. Previous studies, when designing benchmarks and datasets, customized them according to their research objectives. Consequently, these benchmarks cannot comprehensively cover all CAPTCHA types. Notably, there is a dearth of dedicated benchmarks for LVLMs. To address this problem, we introduce a novel CAPTCHA benchmark for the first time, named CAPTURE CAPTCHA for Testing Under Real-world Experiments, specifically for LVLMs. Our benchmark encompasses 4 main CAPTCHA types and 25 sub-types from 31 vendors. The diversity enables a multi-dimensional and thorough evaluation of LVLM performance. CAPTURE features extensive class variety, large-scale data, and unique LVLM-tailored labels, filling the gaps in previous research in terms of data comprehensiveness and labeling pertinence. When evaluated by this benchmark, current LVLMs demonstrate poor performance in solving CAPTCHAs.
- Abstract(参考訳): 強力で効率的なマルチモーダルアライメント戦略により、LVLM(Large Visual Language Models)はCAPTCHAの解決のような人間の視覚的および推論能力をシミュレートすることができる。
しかしながら、ビジュアルCAPTCHAに基づいた既存のベンチマークは、依然として制限に直面している。
これまでの研究では、ベンチマークやデータセットを設計する際に、研究目的に応じてカスタマイズされていた。
したがって、これらのベンチマークはすべてのCAPTCHAタイプを包括的にカバーすることはできない。
特に、LVLM用の専用のベンチマークが数多く存在する。
この問題に対処するために,我々は初めてCAPTCHAベンチマーク(CAPTURE CAPTCHA for Testing Under Real-world Experiments,特にLVLMのためのCAPTURE CAPTCHA)を導入する。
ベンチマークでは、31ベンダから4つのCAPTCHAタイプと25のサブタイプを対象とする。
多様性はLVLMの性能を多次元かつ徹底的に評価することを可能にする。
CAPTUREは多様なクラス、大規模データ、独自のLVLM調整ラベルを備えており、データの包括性とラベルの関連性の観点から、過去の研究のギャップを埋めている。
このベンチマークで評価すると、現在のLVLMはCAPTCHAの解法の性能が劣っていることが分かる。
関連論文リスト
- COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers [17.70082722524941]
マルチモーダル大言語モデル(MLLM)は、視覚CAPTCHAのセキュリティ保証を損なう。
実世界のCAPTCHAタスクタイプ18種を対象に,商用およびオープンソースMLLMを7種類評価した。
MLLMは認識指向のCAPTCHAタスクを人為的なコストとレイテンシで確実に解決できることを明らかにする。
論文 参考訳(メタデータ) (2025-12-02T01:23:10Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks [13.493337474908316]
MCA-Benchは包括的な再現可能なベンチマークスイートである。
不均一なCAPTCHA型を単一の評価プロトコルに統合する。
大規模な実験により、MCA-Benchは現在のCAPTCHA設計の脆弱性スペクトルを効果的にマッピングしていることが明らかになった。
論文 参考訳(メタデータ) (2025-06-06T11:02:01Z) - Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents [23.715342148854006]
Open CaptchaWorldは、MLLMを使用したエージェントの視覚的推論とインタラクション能力を評価するために特別に設計された、Webベースのベンチマークとプラットフォームである。
その結果,Browser-Use Openai-o3 による成功率は 40.0% である。
これはOpen CaptchaWorldを、現在のマルチモーダルエージェントの限界を診断し、より堅牢なマルチモーダル推論システムの開発を導くための重要なベンチマークとして強調している。
論文 参考訳(メタデータ) (2025-05-30T17:59:55Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - ReForm-Eval: Evaluating Large Vision Language Models via Unified
Re-Formulation of Task-Oriented Benchmarks [76.25209974199274]
大規模視覚言語モデル(LVLM)は、視覚信号を知覚し、視覚的根拠を持つ推論を行う驚くべき能力を示す。
当社のベンチマークおよび評価フレームワークは,LVLMの開発を進めるための基盤としてオープンソース化される予定である。
論文 参考訳(メタデータ) (2023-10-04T04:07:37Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Robust Text CAPTCHAs Using Adversarial Examples [129.29523847765952]
Robust Text CAPTCHA (RTC) という,ユーザフレンドリーなテキストベースのCAPTCHA生成法を提案する。
第1段階では、前景と背景はランダムにサンプルされたフォントと背景画像で構成される。
第2段階では、CAPTCHAの解法をより妨害するために、高転送可能な逆攻撃をテキストCAPTCHAに適用する。
論文 参考訳(メタデータ) (2021-01-07T11:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。