論文の概要: Multi-modal user interface control detection using cross-attention
- arxiv url: http://arxiv.org/abs/2604.06934v1
- Date: Wed, 08 Apr 2026 10:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.48256
- Title: Multi-modal user interface control detection using cross-attention
- Title(参考訳): クロスアテンションを用いたマルチモーダルユーザインタフェース制御検出
- Authors: Milad Moradi, Ke Yan, David Colwell, Matthias Samwald, Rhona Asgari,
- Abstract要約: GPT生成したUI画像のテキスト記述を検出パイプラインに統合するYOLOv5のマルチモーダル拡張を提案する。
提案するフレームワークを,23の制御クラスにまたがる16,000以上の注釈付きUIスクリーンショットの大規模なデータセット上で評価した。
- 参考スコア(独自算出の注目度): 6.850038413666062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting user interface (UI) controls from software screenshots is a critical task for automated testing, accessibility, and software analytics, yet it remains challenging due to visual ambiguities, design variability, and the lack of contextual cues in pixel-only approaches. In this paper, we introduce a novel multi-modal extension of YOLOv5 that integrates GPT-generated textual descriptions of UI images into the detection pipeline through cross-attention modules. By aligning visual features with semantic information derived from text embeddings, our model enables more robust and context-aware UI control detection. We evaluate the proposed framework on a large dataset of over 16,000 annotated UI screenshots spanning 23 control classes. Extensive experiments compare three fusion strategies, i.e. element-wise addition, weighted sum, and convolutional fusion, demonstrating consistent improvements over the baseline YOLOv5 model. Among these, convolutional fusion achieved the strongest performance, with significant gains in detecting semantically complex or visually ambiguous classes. These results establish that combining visual and textual modalities can substantially enhance UI element detection, particularly in edge cases where visual information alone is insufficient. Our findings open promising opportunities for more reliable and intelligent tools in software testing, accessibility support, and UI analytics, setting the stage for future research on efficient, robust, and generalizable multi-modal detection systems.
- Abstract(参考訳): ソフトウェアスクリーンショットからユーザインターフェース(UI)コントロールを検出することは、自動テスト、アクセシビリティ、ソフトウェア分析にとって重要なタスクである。
本稿では,GPT生成したUI画像のテキスト記述を,クロスアテンションモジュールを介して検出パイプラインに統合する,YOLOv5のマルチモーダル拡張を提案する。
視覚的特徴をテキスト埋め込みから派生した意味情報と整合させることで、我々のモデルはより堅牢でコンテキスト対応のUI制御検出を可能にする。
提案するフレームワークを,23の制御クラスにまたがる16,000以上の注釈付きUIスクリーンショットの大規模なデータセット上で評価した。
広範囲な実験は3つの融合戦略、すなわち要素的な加算、重み付け和、畳み込み融合を比較し、ベースライン YOLOv5 モデルに対して一貫した改善を示す。
これらのうち、畳み込み融合は、意味論的に複雑なクラスや視覚的曖昧なクラスを検出できることで、最も優れた性能を達成した。
これらの結果から、視覚情報のみが不十分なエッジケースにおいて、視覚的およびテキスト的モダリティの組み合わせによりUI要素の検出が大幅に向上することが確認された。
我々の発見は、ソフトウェアテスト、アクセシビリティサポート、UI分析におけるより信頼性が高くインテリジェントなツールに対する有望な機会を開き、効率的で堅牢で汎用的なマルチモーダル検出システムに関する将来の研究のステージを設定しました。
関連論文リスト
- Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs [80.03370593724422]
Out-of-Distribution (OOD) は未知のクラスからサンプルを識別する。
現在の手法では、否定的なテキストとIDラベルを比較するなど、OOD検出中にモード内距離を組み込むことが多い。
テキストおよび視覚的視点から一貫したモーダル距離拡張を体系的に利用するフレームワークであるInterNegを提案する。
論文 参考訳(メタデータ) (2026-03-03T05:44:47Z) - EdgeSpotter: Multi-Scale Dense Text Spotting for Industrial Panel Monitoring [7.258517513309888]
本研究は、エッジAIベースのビジョンシステム(EdgeSpotter)のための、高精度で堅牢な産業パネル監視を実現するための、新しいマルチスケール高密度テキストスポッターを提案する。
具体的には、マルチレベル特徴間の相互依存性を学習するために、効率的なミキサーを備えた新しいトランスフォーマーを開発した。
さらに, テキストの形状, 位置, 意味情報を明示的にエンコードするキャットモール・ロム・スプラインを用いた新しい特徴サンプリングを設計した。
論文 参考訳(メタデータ) (2025-06-08T12:45:53Z) - InterChat: Enhancing Generative Visual Analytics using Multimodal Interactions [22.007942964950217]
視覚要素の直接操作と自然言語入力を組み合わせた生成的視覚分析システムであるInterChatを開発した。
この統合により、正確なインテント通信が可能になり、プログレッシブで視覚的に駆動された探索データ分析をサポートする。
論文 参考訳(メタデータ) (2025-03-06T05:35:19Z) - Artificial intelligence for context-aware visual change detection in software test automation [5.182076496564637]
ソフトウェアテスト自動化におけるコンテキスト認識型視覚変化検出のための新しいグラフベースのアプローチを提案する。
実世界のソフトウェアスクリーンショットのキュレートされたデータセットに対する我々のアプローチを評価し、単純かつ複雑なUI変更の両方を確実に検出できることを実証した。
論文 参考訳(メタデータ) (2024-05-01T21:22:33Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。