論文の概要: Reasoning under Vision: Understanding Visual-Spatial Cognition in Vision-Language Models for CAPTCHA
- arxiv url: http://arxiv.org/abs/2510.06067v1
- Date: Tue, 07 Oct 2025 15:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.335641
- Title: Reasoning under Vision: Understanding Visual-Spatial Cognition in Vision-Language Models for CAPTCHA
- Title(参考訳): 視覚下での推論:CAPTCHAの視覚言語モデルにおける視覚空間認知の理解
- Authors: Python Song, Luke Tenyi Chang, Yun-Yun Tsai, Penghui Li, Junfeng Yang,
- Abstract要約: CAPTCHAを解くためには,視覚言語モデルにとってステップバイステップ推論が不可欠であることを示す。
CAPTCHA-Xは推論を用いた世界初の実世界のベンチマークである。
提案手法は,5種類の高次CAPTCHAタイプに対して,平均解解解精度83.9%の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 21.107646541203387
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: CAPTCHA, originally designed to distinguish humans from robots, has evolved into a real-world benchmark for assessing the spatial reasoning capabilities of vision-language models. In this work, we first show that step-by-step reasoning is crucial for vision-language models (VLMs) to solve CAPTCHAs, which represent high-difficulty spatial reasoning tasks, and that current commercial vision-language models still struggle with such reasoning. In particular, we observe that most commercial VLMs (e.g., Gemini, Claude, GPT, etc.) fail to effectively solve CAPTCHAs and thus achieve low accuracy (around 21.9 percent). However, our findings indicate that requiring the model to perform step-by-step reasoning before generating the final coordinates can significantly enhance its solving accuracy, underscoring the severity of the gap. To systematically study this issue, we introduce CAPTCHA-X, the first real-world CAPTCHA benchmark with reasoning, covering seven categories of CAPTCHAs (such as Gobang, hCaptcha, etc.) with step-by-step action solutions and grounding annotations. We further define five reasoning-oriented metrics that enable a comprehensive evaluation of models reasoning capabilities. To validate the effectiveness of reasoning, we also propose a general agentic VLM-based framework that incorporates the models inherent reasoning abilities. Our method achieves state-of-the-art performance across five high-difficulty CAPTCHA types, with an average solving accuracy of 83.9 percent, substantially surpassing existing baselines. These results reveal the limitations of current models and highlight the importance of reasoning in advancing visual-spatial challenges in the future.
- Abstract(参考訳): CAPTCHAはもともと人間とロボットを区別するために設計されたもので、視覚言語モデルの空間的推論能力を評価するための実世界のベンチマークへと進化した。
本研究では,視覚言語モデル(VLM)において,高次空間推論タスクを表すCAPTCHAを解く上で,ステップバイステップ推論が不可欠であることを示す。
特に、ほとんどの商用VLM(例えば、Gemini、Claude、GPTなど)がCAPTCHAを効果的に解けず、精度が21.9%ほど低いことが観察された。
しかし, 最終的な座標を生成する前に, モデルにステップバイステップの推論を要求させることは, 解の精度を著しく向上させ, ギャップの深刻さを裏付けることが示唆された。
この問題を体系的に研究するために,CAPTCHA-Xを導入する。CAPTCHAの7つのカテゴリ(Gobang,hCaptchaなど)をステップバイステップのアクションソリューションとグラウンドディングアノテーションでカバーする,最初の実世界のCAPTCHAベンチマークである。
さらに、モデル推論能力の包括的な評価を可能にする5つの推論指向メトリクスを定義します。
また、推論の有効性を検証するために、モデル固有の推論能力を組み込んだ汎用エージェントVLMベースのフレームワークを提案する。
提案手法は,5種類の高次CAPTCHAタイプに対して,平均解解解精度83.9%の最先端性能を実現し,既存のベースラインを大幅に上回っている。
これらの結果は、現在のモデルが持つ限界を明らかにし、将来的な視覚空間的課題の進行における推論の重要性を強調している。
関連論文リスト
- Spatial CAPTCHA: Generatively Benchmarking Spatial Reasoning for Human-Machine Differentiation [15.668734718800065]
本研究では,人間とMLLMの空間的推論における基本的差異を生かした,新しい人間検証フレームワークを提案する。
現代のAIに弱い低レベルの知覚タスクに依存する既存のCAPTCHAとは異なり、空間CAPTCHAは幾何学的推論、視点取り、精神的回転を必要とする動的質問を生成する。
対応するベンチマークであるSpatial-CAPTCHA-Benchでは、人間が10の最先端MLLMをはるかに上回り、最高のモデルは31.0%のPass@1精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-10-04T16:19:21Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards [48.55501117313608]
本稿では,視覚言語モデルにおけるステップ推論の連鎖について述べる。
ステップレベルの推論データ、プロセス報酬モデル(PRM)、強化学習トレーニングを含む、シンプルで効果的で完全に透明なフレームワークを提案する。
本稿では、視覚言語モデルのベースラインとして機能し、より複雑なマルチモーダル推論に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-09-23T13:47:32Z) - Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning [22.32435186013626]
本稿では,いくつかの潜在能力因子の線形変換としてベンチマーク性能をモデル化した因果表現学習フレームワークを提案する。
このアプローチを6つのベンチマークで評価された1500以上のモデルを含む包括的データセットに適用することにより、観測された性能変動を確実に説明できる簡潔な3ノード線形因果構造を同定する。
論文 参考訳(メタデータ) (2025-06-12T06:07:42Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Oedipus: LLM-enchanced Reasoning CAPTCHA Solver [17.074422329618212]
OedipusはCAPTCHAの自動推論のための革新的なエンドツーエンドフレームワークである。
このフレームワークの中心は、複雑で人間に近いAIタスクを、シンプルでAIに近い一連のステップに分解する、新しい戦略である。
評価の結果,オエディプスはCAPTCHAを効果的に解決し,平均成功率は63.5%であった。
論文 参考訳(メタデータ) (2024-05-13T06:32:57Z) - Advancing Spatial Reasoning in Large Language Models: An In-Depth
Evaluation and Enhancement Using the StepGame Benchmark [4.970614891967042]
StepGameベンチマークでGPTの空間推論性能を解析した。
自然言語テキストを空間的関係にマッピングする習熟度は,マルチホップ推論の限界に比例する。
我々は、GPTの認知プロセスに関する洞察を提供しながら、戦略を促すチェーン・オブ・ソートとツリー・オブ・ソートを展開」。
論文 参考訳(メタデータ) (2024-01-08T16:13:08Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Deep-CAPTCHA: a deep learning based CAPTCHA solver for vulnerability
assessment [1.027974860479791]
本研究では,CAPTCHAジェネレータシステムの弱点と脆弱性について検討する。
この目的を達成するために,Deep-CAPTCHAと呼ばれる畳み込みニューラルネットワークを開発した。
我々のネットワークのクラック精度は、数値およびアルファ数値テストデータセットの98.94%と98.31%のハイレートにつながる。
論文 参考訳(メタデータ) (2020-06-15T11:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。