Fugu-MT 論文翻訳(概要): DiffSpot: Can VLMs Spot Fine-Grained Visual Differences in Web Interfaces?

論文の概要: DiffSpot: Can VLMs Spot Fine-Grained Visual Differences in Web Interfaces?

arxiv url: http://arxiv.org/abs/2605.29615v1
Date: Thu, 28 May 2026 08:50:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:56.085627
Title: DiffSpot: Can VLMs Spot Fine-Grained Visual Differences in Web Interfaces?
Title（参考訳）: DiffSpot: VLMはWebインターフェースに細分化された視覚的違いを発見できるか?
Authors: Linhao Zhang, Aiwei Liu, Yuan Liu, Xiao Zhou,
Abstract要約: textbfDiffSpotは、Webインターフェース上のオープンなスポット・ザ・ディファレンスのためのコード駆動ベンチマークである。ベンチマークには4,400のペアが含まれており、13のCSSプロパティ演算子間でバランスの取れた3,900のhas-diffペアが含まれている。最高のモデルでさえ、真の変更の40.7%しか見つからず、ハード層リコールはすべてのモデルに対して23%以下である。
参考スコア（独自算出の注目度）: 24.710597841706413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) have made strong progress on high-level image-text alignment, yet their ability to perceive subtle visual differences remains limited. We study this problem in rendered web interfaces, where localized visual changes are both a diagnostic test of fine-grained perception and a practical requirement for GUI agents and design tools. We introduce \textbf{DiffSpot}, a code-driven benchmark for open-ended spot-the-difference on web interfaces. DiffSpot constructs controlled image pairs by mutating a single CSS property of a target element in self-contained HTML, re-rendering the page, and recording the changed property, element, and mutation magnitude. A grounding gate retains only pairs whose rendered pixel difference is confined to the target element. The benchmark contains 4{,}400 pairs, including 3{,}900 has-diff pairs balanced across 13 CSS-property operators and three difficulty tiers, plus 500 no-diff pairs for hallucination control. Evaluating 13 frontier VLMs zero-shot, we find that even the best model identifies only $40.7\%$ of true changes, with Hard-tier Recall below $23\%$ for every model. DiffSpot further shows that difficulty is strongly property-dependent: across CSS operators, neither pixel magnitude nor CLIP distance reliably predicts Recall.
Abstract（参考訳）: 視覚言語モデル(VLM)は高レベルな画像テキストアライメントに大きく進歩しているが、微妙な視覚的差異を認識できる能力は依然として限られている。そこで我々は,局所的な視覚的変化が微粒化認識の診断テストであり,GUIエージェントやデザインツールの実用的な要件であるレンダリングWebインタフェースにおいて,この問題について検討する。 Web インターフェース上でのオープンなスポット・ザ・ディファレンスのためのコード駆動ベンチマークである \textbf{DiffSpot} を紹介する。 DiffSpotは、自己完結したHTMLでターゲット要素の単一のCSSプロパティを変更し、ページを再レンダリングし、変更したプロパティ、要素、および変更サイズを記録することで、制御されたイメージペアを構築する。接地ゲートは、レンダリングされた画素差がターゲット素子に制限されたペアのみを保持する。ベンチマークには4{,}400ペアが含まれており、3{,}900のハッシュ差対は13のCSSプロパティ演算子と3つの困難度でバランスし、幻覚制御のための500のノー差対を含んでいる。 13フロンティアのVLMをゼロショットで評価すると、最高のモデルでさえ真の変更の40.7 % しか見つからず、ハードティア・リコールはすべてのモデルに対して23 % 以下である。 DiffSpotはさらに、困難は強いプロパティ依存であることを示している。CSS演算子間では、ピクセルサイズもCLIP距離も確実にリコールを予測する。

関連論文リスト

Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials [34.77694214755808]
MHSA(Multi-Head Self-Attention)の代替品であるVCA(Visual-Contrast Attention)を導入する。 VCAは、O(N N C) から O(N n C) への理論複雑性を n N で減少させながら、識別の明示的な概念を注入する。モジュールはDeiT-Tinyのバックボーンに0.3M以下のパラメータを追加し、追加のFLOPを必要とせず、完全にアーキテクチャに依存しない。
論文参考訳（メタデータ） (2025-11-02T07:04:12Z)
Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning [27.33722610773045]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクにおいて高い性能を達成しているが、細かな視覚的差異に苦慮している。本稿では,最小限に編集された画像対を意味的に一致した字幕で生成する制御データ生成パイプラインを提案する。
論文参考訳（メタデータ） (2025-06-08T17:23:36Z)
OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning [8.438910952889854]
OmniDiffは324の多様なシナリオスパンニング現実環境と3D合成環境からなる包括的データセットである。 M$3$Diffは、MDP(Multi-scale Differential Perception)モジュールによって拡張されたMultiModalの大型言語モデルである。 M$3$Diffは、Spot-the-Diff、IEdit、CLEVR-Change、CLEVR-DC、OmniDiffなど、複数のベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-14T05:34:16Z)
Detect Changes like Humans: Incorporating Semantic Priors for Improved Change Detection [52.62459671461816]
本稿では,視覚基盤モデルからのセマンティックな先入観を取り入れ,変化を検出する能力の向上について検討する。人間の視覚パラダイムにインスパイアされた新しいデュアルストリーム特徴デコーダは、意味認識特徴と差認識特徴を組み合わせることで変化を区別するために導出される。
論文参考訳（メタデータ） (2024-12-22T08:27:15Z)
Image2Struct: Benchmarking Structure Extraction for Vision-Language Models [57.531922659664296]
Image2Structは、画像から構造を抽出する際のビジョンピクセルモデル(VLM)を評価するためのベンチマークである。 Image2Structでは、VLMが入力画像から基盤構造を生成するように促される。そして、構造を描画して出力画像を生成し、入力画像と比較して類似度スコアを生成する。
論文参考訳（メタデータ） (2024-10-29T18:44:59Z)
VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。 VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文参考訳（メタデータ） (2024-07-23T18:10:43Z)
Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。 $pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-08-04T23:13:49Z)
Patch-level Representation Learning for Self-supervised Vision Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文参考訳（メタデータ） (2022-06-16T08:01:19Z)
A Unified Transformer Framework for Group-based Segmentation: Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。 UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文参考訳（メタデータ） (2022-03-09T13:35:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。