Fugu-MT 論文翻訳(概要): TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents

論文の概要: TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents

arxiv url: http://arxiv.org/abs/2502.08226v2
Date: Fri, 14 Feb 2025 06:23:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 13:26:31.322601
Title: TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents
Title（参考訳）: TRISHUL:大規模VLMGUIエージェントの領域識別と画面階層理解を目指して
Authors: Kunal Singh, Shreyas Singh, Mukund Khanna,
Abstract要約: TRISHULは、総合的なGUI理解のための一般のLVLMを強化する、トレーニング不要のフレームワークである。この結果は、ScreenSpot、VisualWebBench、AITW、Mind2WebデータセットをまたいだアクショングラウンドにおけるTRISHULの優れたパフォーマンスを示している。 GUI参照の場合、TRISHULはScreenPRベンチマークのToLエージェントを超え、堅牢で適応可能なGUI理解のための新しい標準を設定している。
参考スコア（独自算出の注目度）: 0.6827423171182154
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in Large Vision Language Models (LVLMs) have enabled the development of LVLM-based Graphical User Interface (GUI) agents under various paradigms. Training-based approaches, such as CogAgent and SeeClick, struggle with cross-dataset and cross-platform generalization due to their reliance on dataset-specific training. Generalist LVLMs, such as GPT-4V, employ Set-of-Marks (SoM) for action grounding, but obtaining SoM labels requires metadata like HTML source, which is not consistently available across platforms. Moreover, existing methods often specialize in singular GUI tasks rather than achieving comprehensive GUI understanding. To address these limitations, we introduce TRISHUL, a novel, training-free agentic framework that enhances generalist LVLMs for holistic GUI comprehension. Unlike prior works that focus on either action grounding (mapping instructions to GUI elements) or GUI referring (describing GUI elements given a location), TRISHUL seamlessly integrates both. At its core, TRISHUL employs Hierarchical Screen Parsing (HSP) and the Spatially Enhanced Element Description (SEED) module, which work synergistically to provide multi-granular, spatially, and semantically enriched representations of GUI elements. Our results demonstrate TRISHUL's superior performance in action grounding across the ScreenSpot, VisualWebBench, AITW, and Mind2Web datasets. Additionally, for GUI referring, TRISHUL surpasses the ToL agent on the ScreenPR benchmark, setting a new standard for robust and adaptable GUI comprehension.
Abstract（参考訳）: 近年のLVLM(Large Vision Language Models)の進歩により、様々なパラダイムの下でLVLMベースのグラフィカルユーザインタフェース(GUI)エージェントの開発が可能になった。 CogAgentやSeeClickといったトレーニングベースのアプローチは、データセット固有のトレーニングに依存しているため、クロスデータセットとクロスプラットフォームの一般化に苦労する。 GPT-4Vのような一般のLVLMはアクショングラウンドにSet-of-Marks(SoM)を使用しているが、SoMラベルを取得するにはHTMLソースのようなメタデータが必要である。さらに、既存のメソッドは、包括的なGUI理解を達成するのではなく、特異なGUIタスクに特化していることが多い。これらの制約に対処するために,汎用的なGUI理解のための汎用的なLVLMを強化する,新しいトレーニング不要なエージェントフレームワークTRISHULを導入する。アクショングラウンド(GUI要素へのマッピング命令)やGUI参照(場所を指定したGUI要素の説明)にフォーカスする以前の作業とは異なり、TRISHULはシームレスに両方を統合する。 TRISHULはHSP(Hierarchical Screen Parsing)とSEED(Spatially Enhanced Element Description)モジュールを採用している。この結果は、ScreenSpot、VisualWebBench、AITW、Mind2WebデータセットをまたいだアクショングラウンドにおけるTRISHULの優れたパフォーマンスを示している。さらにGUI参照では、TRISHULはScreenPRベンチマークのToLエージェントを超え、堅牢で適応可能なGUI理解のための新しい標準を設定している。

関連論文リスト

Beyond Clicking:A Step Towards Generalist GUI Grounding via Text Dragging [21.57463393334841]
テキストコンテンツの選択と操作のためにマウスをドラッグすることは、実用的なGUIシナリオにおいて一般的で重要な使用法である。スケーラブルなパイプラインを通じて合成された161Kテキストドラッグング例のデータセットであるGUI-Dragを紹介する。系統的かつ堅牢な評価をサポートするために,3段階のインターフェースコンテキストにまたがる5,333のサンプルを持つベンチマークであるScreenDragを構築した。
論文参考訳（メタデータ） (2025-11-07T19:40:09Z)
Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。 ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文参考訳（メタデータ） (2025-09-29T00:06:31Z)
GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking [55.762798168494726]
GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
論文参考訳（メタデータ） (2025-08-05T10:17:38Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。 GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2025-06-03T17:59:08Z)
GUI-Shift: Enhancing VLM-Based GUI Agents through Self-supervised Reinforcement Learning [21.964100514016504]
GUIエージェントのための効果的なビジョンランゲージモデル(VLM)のトレーニングは通常、大規模な注釈付きデータセットに依存する。本稿では,2つのGUI状態間の遷移を引き起こす初期動作を予測することで,VLMがGUIダイナミクスを学習する自己教師型逆動的タスクであるKステップGUIトランジションを紹介する。本稿では,ルールベースの最適化とデータフィルタリングを組み合わせることで,VLM性能を向上させるための強化学習フレームワークであるGUI-Shiftを提案する。
論文参考訳（メタデータ） (2025-05-18T16:34:30Z)
MP-GUI: Modality Perception with MLLMs for GUI Understanding [12.812289005013797]
MP-GUIはGUI理解のための特別に設計されたMLLMである。 MP-GUIは、画面からグラフィカル、テキスト、空間のモダリティを抽出する3つの専門のパーシーバーを備えている。トレーニングデータの不足に対処するため,自動データ収集のためのパイプラインも導入する。
論文参考訳（メタデータ） (2025-03-18T08:32:22Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。 Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文参考訳（メタデータ） (2024-12-12T15:29:36Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文参考訳（メタデータ） (2024-12-02T08:35:31Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding [30.624179161014283]
そこで我々は,ScreenPRタスクに対処するために,新しいToLグラウンド機構を用いたToLエージェントを提案する。入力点座標とそれに対応するGUIスクリーンショットに基づいて、我々のToLエージェントは階層的なレイアウトツリーを構築する。木をベースとしたToLエージェントは,指定領域の内容だけでなく,要素間のレイアウトや空間的関係も理解している。
論文参考訳（メタデータ） (2024-06-27T15:34:16Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文参考訳（メタデータ） (2024-01-17T08:10:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。