論文の概要: UISearch: Graph-Based Embeddings for Multimodal Enterprise UI Screenshots Retrieval
- arxiv url: http://arxiv.org/abs/2511.19380v1
- Date: Mon, 24 Nov 2025 18:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.362497
- Title: UISearch: Graph-Based Embeddings for Multimodal Enterprise UI Screenshots Retrieval
- Title(参考訳): UISearch:マルチモーダルエンタープライズUIスクリーンショット検索のためのグラフベースの埋め込み
- Authors: Maroun Ayli, Youssef Bakouny, Tushar Sharma, Nader Jalloul, Hani Seifeddine, Rima Kilany,
- Abstract要約: 本稿では,UIスクリーンショットを階層関係や空間配置を符号化した属性グラフに変換するグラフベース表現を提案する。
対照的なグラフオートエンコーダは、視覚的、構造的、意味的な特性にまたがる多レベル類似性を保存する埋め込みを学習する。
この表現を,構成可能なクエリ言語による構造埋め込みとセマンティック検索を組み合わせたマルチモーダル検索フレームワークであるUISearchに実装する。
- 参考スコア(独自算出の注目度): 1.3563834727527375
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Enterprise software companies maintain thousands of user interface screens across products and versions, creating critical challenges for design consistency, pattern discovery, and compliance check. Existing approaches rely on visual similarity or text semantics, lacking explicit modeling of structural properties fundamental to user interface (UI) composition. We present a novel graph-based representation that converts UI screenshots into attributed graphs encoding hierarchical relationships and spatial arrangements, potentially generalizable to document layouts, architectural diagrams, and other structured visual domains. A contrastive graph autoencoder learns embeddings preserving multi-level similarity across visual, structural, and semantic properties. The comprehensive analysis demonstrates that our structural embeddings achieve better discriminative power than state-of-the-art Vision Encoders, representing a fundamental advance in the expressiveness of the UI representation. We implement this representation in UISearch, a multi-modal search framework that combines structural embeddings with semantic search through a composable query language. On 20,396 financial software UIs, UISearch achieves 0.92 Top-5 accuracy with 47.5ms median latency (P95: 124ms), scaling to 20,000+ screens. The hybrid indexing architecture enables complex queries and supports fine-grained UI distinction impossible with vision-only approaches.
- Abstract(参考訳): エンタープライズソフトウェア企業は製品やバージョンにまたがって数千のユーザインターフェース画面を維持しており、設計の一貫性、パターン発見、コンプライアンスチェックといった重要な課題を生み出している。
既存のアプローチは視覚的類似性やテキストのセマンティクスに依存しており、ユーザーインターフェイス(UI)合成の基本となる構造的特性の明示的なモデリングは欠如している。
本稿では,UIスクリーンショットを階層的関係や空間配置を符号化した属性グラフに変換するグラフベース表現を提案する。
対照的なグラフオートエンコーダは、視覚的、構造的、意味的な特性にまたがる多レベル類似性を保存する埋め込みを学習する。
包括的分析により、我々の構造的埋め込みは最先端のビジョンエンコーダよりも識別力が高く、UI表現の表現力の根本的な進歩を表していることが示された。
この表現を,構成可能なクエリ言語による構造埋め込みとセマンティック検索を組み合わせたマルチモーダル検索フレームワークであるUISearchに実装する。
20,396の金融ソフトウェアUIで、UISearchは0.92 Top-5の精度を達成し、47.5msの中央レイテンシ(P95: 124ms)で、2万以上のスクリーンにスケーリングする。
ハイブリッドインデックスアーキテクチャは、複雑なクエリを可能にし、視覚のみのアプローチでは不可能な、きめ細かいUIの区別をサポートする。
関連論文リスト
- CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design [6.830055289299306]
CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。
我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。
その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-27T06:09:56Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。
これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。
我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (2024-10-17T17:48:54Z) - Computer User Interface Understanding. A New Dataset and a Learning Framework [2.4473568032515147]
コンピュータUI理解の難しい課題を紹介します。
ユーザがアクションのシーケンスを実行しているビデオのセットでデータセットを提示し、各画像はその時点のデスクトップコンテンツを表示する。
また,データセットに関連する特徴を付加する合成サンプル生成パイプラインを構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-15T10:26:52Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。