論文の概要: Moving Beyond Sparse Grounding with Complete Screen Parsing Supervision
- arxiv url: http://arxiv.org/abs/2602.14276v1
- Date: Sun, 15 Feb 2026 19:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.930924
- Title: Moving Beyond Sparse Grounding with Complete Screen Parsing Supervision
- Title(参考訳): スクリーンパーシングの完全なスーパービジョンによるスパースグラウンドの移動
- Authors: A. Said Gurbuz, Sunghwan Hong, Ahmed Nassar, Marc Pollefeys, Peter Staar,
- Abstract要約: ScreenParseは、スクリーン解析のための大規模なデータセットである。
771KのWebスクリーンショット全体にわたって、すべての可視的UI要素(ボックス、55クラスの型、テキスト)の詳細なアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 45.098778066775964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern computer-use agents (CUA) must perceive a screen as a structured state, what elements are visible, where they are, and what text they contain, before they can reliably ground instructions and act. Yet, most available grounding datasets provide sparse supervision, with insufficient and low-diversity labels that annotate only a small subset of task-relevant elements per screen, which limits both coverage and generalization; moreover, practical deployment requires efficiency to enable low-latency, on-device use. We introduce ScreenParse, a large-scale dataset for complete screen parsing, with dense annotations of all visible UI elements (boxes, 55-class types, and text) across 771K web screenshots (21M elements). ScreenParse is generated by Webshot, an automated, scalable pipeline that renders diverse urls, extracts annotations and applies VLM-based relabeling and quality filtering. Using ScreenParse, we train ScreenVLM, a compact, 316M-parameter vision language model (VLM) that decodes a compact ScreenTag markup representation with a structure-aware loss that upweights structure-critical tokens. ScreenVLM substantially outperforms much larger foundation VLMs on dense parsing (e.g., 0.592 vs. 0.294 PageIoU on ScreenParse) and shows strong transfer to public benchmarks. Moreover, finetuning foundation VLMs on ScreenParse consistently improves their grounding performance, suggesting that dense screen supervision provides transferable structural priors for UI understanding. Project page: https://saidgurbuz.github.io/screenparse/.
- Abstract(参考訳): 現代のコンピュータ利用エージェント(CUA)は、画面を構造化された状態として認識し、どの要素が見えるか、どこにあるか、そしてどのテキストを含むかを、確実に指示と動作を下ろす前に認識しなければならない。
しかし、ほとんどのグラウンドデータセットはスパース監視を提供し、画面当たりのタスク関連要素の小さなサブセットにアノテートする不十分で低多様性のラベルがあり、カバレッジと一般化の両方が制限されている。
スクリーン解析のための大規模なデータセットであるScreenParseを紹介します。771KのWebスクリーンショット(21M要素)にまたがる、すべての可視的なUI要素(ボックス、55クラスの型、テキスト)の高密度アノテーションを備えています。
ScreenParseは、さまざまなURLをレンダリングし、アノテーションを抽出し、VLMベースのラベリングと品質フィルタリングを適用する自動化されたスケーラブルなパイプラインであるWebshotによって生成される。
ScreenParseを用いて、316Mパラメータ・ビジョン言語モデル(VLM)であるScreenVLMを訓練する。
ScreenVLMは、高密度解析(ScreenParseの0.592対0.294 PageIoU)において、はるかに大きな基盤VLMよりも優れており、公開ベンチマークへの強い移行を示している。
さらに、ScreenParseの微調整ファウンデーションVLMは、その基盤性能を一貫して改善している。
プロジェクトページ:https://saidgurbuz.github.io/screenparse/。
関連論文リスト
- Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。
PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。
MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T12:23:57Z) - SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing [13.521180435948791]
本稿ではGUI知覚のための新しいエンドツーエンドフレームワークを提案する。
確率ベース離散モデリングの代わりに、座標の連続モデリングを行う。
これにより、離散出力特性に固有の制限を効果的に緩和する。
論文 参考訳(メタデータ) (2025-09-05T08:24:12Z) - PEVLM: Parallel Encoding for Vision-Language Models [4.777805570120456]
我々は,視覚言語モデルのプリフィル効率を高めるために,微調整不要な並列符号化方式である textbfPEVLM を紹介する。
PEVLMは、入力ビデオを共有シンクブロックでコンテキストブロックに分割し、シーケンシャルな位置埋め込みを保持して、注意重量分布をFull-Attentionと整合させる。
実験により、PEVLMは既存の並列符号化手法を一貫して上回り、注目計算で textbf7.47x のスピードアップを達成し、 textbf40% でエンドツーエンドのレイテンシを削減した。
論文 参考訳(メタデータ) (2025-06-24T14:14:52Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。
textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。
textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文 参考訳(メタデータ) (2024-08-01T00:00:43Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots [8.176933082548093]
ScreenQAは、質問応答による画面コンテンツ理解を促進するために設計された、新しいベンチマークデータセットである。
RICOデータセットに86kの質問応答ペアをアノテートすることにより,画面読解能力のベンチマークを行う。
オープンウェイトモデルとプロプライエタリモデルの両方を用いて、ゼロショット、微調整、転送学習設定でデータセットの有効性を評価する。
論文 参考訳(メタデータ) (2022-09-16T23:49:00Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。