論文の概要: GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking
- arxiv url: http://arxiv.org/abs/2508.03298v1
- Date: Tue, 05 Aug 2025 10:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.913019
- Title: GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking
- Title(参考訳): GUI-ReRank:マルチモーダルLCMによるGUI検索の強化
- Authors: Kristian Kolthoff, Felix Kretzer, Christian Bartelt, Alexander Maedche, Simone Paolo Ponzetto,
- Abstract要約: GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。
提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
- 参考スコア(独自算出の注目度): 55.762798168494726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI prototyping is a fundamental component in the development of modern interactive systems, which are now ubiquitous across diverse application domains. GUI prototypes play a critical role in requirements elicitation by enabling stakeholders to visualize, assess, and refine system concepts collaboratively. Moreover, prototypes serve as effective tools for early testing, iterative evaluation, and validation of design ideas with both end users and development teams. Despite these advantages, the process of constructing GUI prototypes remains resource-intensive and time-consuming, frequently demanding substantial effort and expertise. Recent research has sought to alleviate this burden through NL-based GUI retrieval approaches, which typically rely on embedding-based retrieval or tailored ranking models for specific GUI repositories. However, these methods often suffer from limited retrieval performance and struggle to generalize across arbitrary GUI datasets. In this work, we present GUI-ReRank, a novel framework that integrates rapid embedding-based constrained retrieval models with highly effective MLLM-based reranking techniques. GUI-ReRank further introduces a fully customizable GUI repository annotation and embedding pipeline, enabling users to effortlessly make their own GUI repositories searchable, which allows for rapid discovery of relevant GUIs for inspiration or seamless integration into customized LLM-based RAG workflows. We evaluated our approach on an established NL-based GUI retrieval benchmark, demonstrating that GUI-ReRank significantly outperforms SOTA tailored LTR models in both retrieval accuracy and generalizability. Additionally, we conducted a comprehensive cost and efficiency analysis of employing MLLMs for reranking, providing valuable insights regarding the trade-offs between retrieval effectiveness and computational resources. Video: https://youtu.be/_7x9UCh82ug
- Abstract(参考訳): GUIプロトタイピング(GUI Prototyping)は、様々なアプリケーションドメインにまたがる現代の対話型システム開発における基本的なコンポーネントである。
GUIプロトタイプは、利害関係者が協調してシステム概念を視覚化し、評価し、洗練させることによって、要求の導出において重要な役割を担います。
さらにプロトタイプは、エンドユーザと開発チームの両方で設計アイデアを早期テスト、反復評価、検証するための効果的なツールとして役立ちます。
これらの利点にもかかわらず、GUIプロトタイプの構築プロセスは資源集約的で時間を要するため、かなりの努力と専門知識を必要としている。
近年の研究では、組み込みベースの検索や特定のGUIリポジトリのランキングモデルに依存する、NLベースのGUI検索アプローチを通じて、この負担を軽減することを目指している。
しかし、これらの手法は検索性能の限界に悩まされ、任意のGUIデータセットにまたがる一般化に苦慮することが多い。
本稿では, 高速埋め込みに基づく制約付き検索モデルと, MLLMに基づく高効率なリグレード手法を融合したGUI-ReRankを提案する。
GUI-ReRankはさらに、完全にカスタマイズ可能なGUIリポジトリのアノテーションと埋め込みパイプラインを導入し、ユーザが自由に独自のGUIリポジトリを検索できるようにする。
提案手法を確立されたNLベースのGUI検索ベンチマークで評価し,GUI-ReRank がSOTA に最適化された LTR モデルよりも高い精度と一般化性を示した。
さらに,MLLMを用いて再評価を行い,検索効率と計算資源とのトレードオフについて,総合的なコスト・効率分析を行った。
ビデオ:https://youtu.be/_7x9UCh82ug
関連論文リスト
- Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - GUIDE: LLM-Driven GUI Generation Decomposition for Automated Prototyping [55.762798168494726]
印象的なコード生成機能を備えた大規模言語モデル(LLM)は、GUIプロトタイピングを自動化するための有望なアプローチを提供する。
しかし、現在のLLMベースのプロトタイピングソリューションと従来のユーザベースのGUIプロトタイピングアプローチの間にはギャップがある。
プロトタイピングフレームワークであるFigmaにシームレスに統合された新しいLLM駆動GUI生成分解手法であるGUIDEを提案する。
論文 参考訳(メタデータ) (2025-02-28T14:03:53Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - Self-Elicitation of Requirements with Automated GUI Prototyping [12.281152349482024]
SERGUIは、自動GUIプロトタイピングアシスタントに基づく、要求の自己適用を可能にする新しいアプローチである。
SerGUIは、NLR(Natural Language Requirements)ベースのGUI検索を通じて、大規模なGUIリポジトリに具現化された膨大なプロトタイピング知識を活用する。
提案手法の有効性を評価するため,予備評価を行った。
論文 参考訳(メタデータ) (2024-09-24T18:40:38Z) - Interlinking User Stories and GUI Prototyping: A Semi-Automatic LLM-based Approach [55.762798168494726]
グラフィカルユーザインタフェース(GUI)のプロトタイプにおいて,機能的NLベースの要求の実装を検証するための新しい言語モデル(LLM)ベースのアプローチを提案する。
提案手法は,GUIプロトタイプに実装されていない機能的ユーザストーリの検出と,要件を直接実装する適切なGUIコンポーネントのレコメンデーションを提供することを目的としている。
論文 参考訳(メタデータ) (2024-06-12T11:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。