論文の概要: VIPER Strike: Defeating Visual Reasoning CAPTCHAs via Structured Vision-Language Inference
- arxiv url: http://arxiv.org/abs/2601.06461v1
- Date: Sat, 10 Jan 2026 07:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.825872
- Title: VIPER Strike: Defeating Visual Reasoning CAPTCHAs via Structured Vision-Language Inference
- Title(参考訳): VIPER Strike:構造化視覚言語推論によるCAPTCHAの視覚的推論
- Authors: Minfeng Qi, Dongyang He, Qin Wang, Lefeng Zhang,
- Abstract要約: 視覚推論CAPTCHA(Visual Reasoning CAPTCHA)は、視覚シーンと自然言語クエリを組み合わせて、オブジェクト、属性、空間関係に対する合成推論を要求する。
構造化多目的視覚認識と適応LDMに基づく推論を統合した統合攻撃フレームワークViPerを提案する。
ViPerは最大93.2%の成功を達成し、複数のベンチマークで人間レベルのパフォーマンスに近づいている。
- 参考スコア(独自算出の注目度): 4.830055389040475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Reasoning CAPTCHAs (VRCs) combine visual scenes with natural-language queries that demand compositional inference over objects, attributes, and spatial relations. They are increasingly deployed as a primary defense against automated bots. Existing solvers fall into two paradigms: vision-centric, which rely on template-specific detectors but fail on novel layouts, and reasoning-centric, which leverage LLMs but struggle with fine-grained visual perception. Both lack the generality needed to handle heterogeneous VRC deployments. We present ViPer, a unified attack framework that integrates structured multi-object visual perception with adaptive LLM-based reasoning. ViPer parses visual layouts, grounds attributes to question semantics, and infers target coordinates within a modular pipeline. Evaluated on six major VRC providers (VTT, Geetest, NetEase, Dingxiang, Shumei, Xiaodun), ViPer achieves up to 93.2% success, approaching human-level performance across multiple benchmarks. Compared to prior solvers, GraphNet (83.2%), Oedipus (65.8%), and the Holistic approach (89.5%), ViPer consistently outperforms all baselines. The framework further maintains robustness across alternative LLM backbones (GPT, Grok, DeepSeek, Kimi), sustaining accuracy above 90%. To anticipate defense, we further introduce Template-Space Randomization (TSR), a lightweight strategy that perturbs linguistic templates without altering task semantics. TSR measurably reduces solver (i.e., attacker) performance. Our proposed design suggests directions for human-solvable but machine-resistant CAPTCHAs.
- Abstract(参考訳): 視覚推論CAPTCHA(Visual Reasoning CAPTCHA)は、視覚シーンと自然言語クエリを組み合わせて、オブジェクト、属性、空間関係に対する合成推論を要求する。
自動化ボットに対する主要な防御手段として、ますます多くデプロイされている。
既存の解法は、テンプレート固有の検出器に依存するが、新しいレイアウトに失敗する視覚中心(visual-centric)と、LSMを利用する推論中心(the reasoning-centric)という2つのパラダイムに分類される。
どちらも、ヘテロジニアスなVRCデプロイメントを扱うために必要な汎用性に欠けています。
構造化多目的視覚認識と適応LDMに基づく推論を統合した統合攻撃フレームワークViPerを提案する。
ViPerは、ビジュアルレイアウトを解析し、問題セマンティクスに属性を接地し、モジュールパイプライン内でターゲット座標を推論する。
VTT、Geetest、NetEase、Dingxiang、Shumei、Xiaodunの6つの主要なVRCプロバイダで評価され、ViPerは最大93.2%の成功を達成し、複数のベンチマークで人間レベルのパフォーマンスにアプローチした。
従来の解法と比較して、GraphNet (83.2%)、Oedipus (65.8%)、Holistic approach (89.5%) は、常にすべてのベースラインを上回っている。
このフレームワークは、代替LLMバックボーン(GPT、Grok、DeepSeek、Kimi)間の堅牢性をさらに維持し、90%以上の精度を維持する。
防御を期待するために,タスクのセマンティクスを変更することなく言語テンプレートを摂動させる軽量戦略であるテンプレート空間ランダム化(TSR)を導入する。
TSRは、解決者(すなわち攻撃者)のパフォーマンスを計測しやすくする。
提案手法は,人間に解けるが機械に抵抗するCAPTCHAの方向性を示唆する。
関連論文リスト
- SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model [61.29164681694533]
ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。
Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
論文 参考訳(メタデータ) (2025-10-28T10:42:57Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では,視覚入力構造を用いた拡張推論(VISER)を提案する。
VISERは、低レベルの空間構造を持つ視覚入力を増強する、シンプルで効果的な方法である。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。