論文の概要: Exploring Vision-Language Models for Online Signature Verification: A Zero-Shot Capability Study
- arxiv url: http://arxiv.org/abs/2605.14845v1
- Date: Thu, 14 May 2026 13:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.855721
- Title: Exploring Vision-Language Models for Online Signature Verification: A Zero-Shot Capability Study
- Title(参考訳): オンライン署名検証のための視覚言語モデル探索:ゼロショット能力調査
- Authors: Marta Robledo-Moreno, Ruben Vera-Rodriguez, Ruben Tolosana, Javier Ortega-Garcia,
- Abstract要約: 本研究は、最先端ビジョンランゲージモデル(VLM)のゼロショット性能を評価する探索的研究である。
本稿では,ロバストなバイオメトリックスコアを計算するために,潜在トークン確率を抽出するスコアリングプロトコルを提案する。
ランダムな偽造のシナリオでは、ゼロショットのVLMは例外的な差別を達成し、GPT-5.2はモバイルタスクで0.32%の誤り率に達する。
熟練した偽造のシナリオでは、両方のシグネチャがほぼ同じであり、結果は著しく悪化し、クリティカルな"Rationalization Trap"が現れるため、タスクがより難しい。
- 参考スコア(独自算出の注目度): 9.575629835755972
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in Vision-Language Models (VLMs) have demonstrated strong capabilities in general visual reasoning, yet their applicability to rigorous biometric tasks remains unexplored. This work presents an exploratory study evaluating the zero-shot performance of state-of-the-art VLMs (GPT-5.2 and Gemini 2.5 Pro) on the Signature Verification Challenge (SVC) benchmark. To enable visual processing, raw kinematic time-series are converted into static images, encoding pressure information into stroke opacity whenever available in the source data. Furthermore, we introduce a scoring protocol that extracts latent token probabilities to compute robust biometric scores. Experimental results reveal a significant performance dichotomy dependent on signal quality and forgery type. In random forgery scenarios, the zero-shot VLM achieves exceptional discrimination, with GPT-5.2 reaching an Equal Error Rate of 0.32% in mobile tasks, outperforming supervised state-of-the-art systems. Conversely, in skilled forgery scenarios, where the task is more challenging because both signatures are almost identical, the results are significantly worse, and a critical "Rationalization Trap" emerges: chain-of-thought (CoT) reasoning degrades performance as the model produces kinematic hallucinations to justify forgery artifacts as natural variability.
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩は、一般的な視覚的推論において強力な能力を示しているが、厳密な生体計測タスクへの適用性は未解明のままである。
本研究は, Signature Verification Challenge (SVC) ベンチマークにおいて, 最先端VLM (GPT-5.2 および Gemini 2.5 Pro) のゼロショット性能を評価するための探索的研究である。
視覚処理を可能にするために、原キネマティックタイムシリーズを静的画像に変換し、ソースデータに利用可能なときに、圧力情報をストローク不透明度に符号化する。
さらに,ロバストなバイオメトリックスコアを計算するために,潜在トークン確率を抽出するスコアリングプロトコルを導入する。
実験の結果,信号品質と偽造型に依存した有意な差が認められた。
ランダムな偽造のシナリオでは、ゼロショットのVLMは例外的な差別を達成し、GPT-5.2はモバイルタスクで0.32%のエラー率に達し、監督された最先端システムを上回っている。
逆に、両方のシグネチャがほぼ同一であるため、タスクがより困難な、熟練したフォージェリシナリオでは、結果は著しく悪化し、重要な"Rationalization Trap"が出現する: チェーン・オブ・シンク(CoT)推論は、モデルがフォージェリアーティファクトを自然な変数として正当化するための運動幻覚を生成するため、パフォーマンスを低下させる。
関連論文リスト
- Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models [8.630726904040781]
EVPV(Explicit Visual Premise Verification)は,ステップが依存する視覚的前提の信頼性を段階的に評価する,軽量な検証インターフェースである。
EVPVはステップレベルの検証を改善し、強いベースラインよりも常にBest-of-Nの精度を向上する。
論文 参考訳(メタデータ) (2026-03-17T08:40:26Z) - RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations [12.753436440584409]
VisRAG(Retrieval-Augmented Generation)は、視覚言語モデル(VLM)を活用して、関連する視覚文書を共同で検索し、マルチモーダルな証拠に基づいて根拠付き回答を生成する。
既存のVisRAGモデルは、視覚入力がぼやけ、ノイズ、低光、シャドーなどの歪みに悩まされるときに性能が低下する。
因果誘導型デュアルパスフレームワークであるRobustVisRAGを導入し,効率とゼロショットの一般化を保ちながら,VisRAGの堅牢性を向上させる。
論文 参考訳(メタデータ) (2026-02-25T15:27:57Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - VAAS: Vision-Attention Anomaly Scoring for Image Manipulation Detection in Digital Forensics [0.0]
AI駆動画像生成の最近の進歩は、法医学的調査におけるデジタル証拠の正当性を検証するための新たな課題をもたらしている。
現代の生成モデルは、画素や圧縮アーチファクトに基づいた従来の検出器を避ける視覚的に一貫した偽造物を生成することができる。
本稿では,グローバルアテンションに基づく異常推定を統合した新しいデュアルモジュール・フレームワークであるVision-Attention Anomaly Scoring(VAAS)を紹介する。
論文 参考訳(メタデータ) (2025-12-17T15:05:40Z) - Task-Model Alignment: A Simple Path to Generalizable AI-Generated Image Detection [57.17054616831796]
視覚言語モデル(VLM)はAI生成画像(AIGI)検出にますます採用されている。
VLMのアンダーパフォーマンスはタスクモデルのミスアライメントに起因する。
本稿では,AIGI検出を2つの補完的タスクとして形式化する。
論文 参考訳(メタデータ) (2025-12-07T09:19:00Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。