論文の概要: Smoothing Grounding and Reasoning for MLLM-Powered GUI Agents with Query-Oriented Pivot Tasks
- arxiv url: http://arxiv.org/abs/2503.00401v2
- Date: Tue, 04 Mar 2025 12:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:56.174213
- Title: Smoothing Grounding and Reasoning for MLLM-Powered GUI Agents with Query-Oriented Pivot Tasks
- Title(参考訳): クエリ指向のPivotタスクを持つMLLM型GUIエージェントの平滑なグラウンドディングと推論
- Authors: Zongru Wu, Pengzhou Cheng, Zheng Wu, Tianjie Ju, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: グラフィカルユーザインタフェース(GUI)エージェントの性能を高めるために、知覚強化事前学習が広く採用されている。
本稿では,GUIグラウンドと推論のブリッジとして機能する,クエリ推論と呼ばれるクエリ指向のピボット手法を提案する。
我々は、クエリ推論が、トレーニングデータの0.1%未満の大規模グラウンド拡張OS-Atlasに匹敵する、あるいはさらに優れたパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 20.31857138247549
- License:
- Abstract: Perception-enhanced pre-training, particularly through grounding techniques, is widely adopted to enhance the performance of graphical user interface (GUI) agents. However, in resource-constrained scenarios, the format discrepancy between coordinate-oriented grounding and action-oriented reasoning limits the effectiveness of grounding for reasoning tasks. To address this challenge, we propose a query-oriented pivot approach called query inference, which serves as a bridge between GUI grounding and reasoning. By inferring potential user queries from a screenshot and its associated element coordinates, query inference improves the understanding of coordinates while aligning more closely with reasoning tasks. Experimental results show that query inference outperforms previous grounding techniques under the same training data scale. Notably, query inference achieves comparable or even better performance to large-scale grounding-enhanced OS-Atlas with less than 0.1% of training data. Furthermore, we explore the impact of reasoning formats and demonstrate that integrating additional semantic information into the input further boosts reasoning performance. The code is publicly available at https://github.com/ZrW00/GUIPivot.
- Abstract(参考訳): 知覚の強化された事前学習、特に接地技術は、グラフィカルユーザインタフェース(GUI)エージェントの性能を高めるために広く採用されている。
しかし、資源制約のあるシナリオでは、座標指向の基底とアクション指向の推論との形式差は、推論タスクの基底の有効性を制限している。
この課題に対処するため、我々はクエリ推論と呼ばれるクエリ指向のピボットアプローチを提案し、GUIグラウンディングと推論のブリッジとして機能する。
スクリーンショットとその関連要素座標から潜在的なユーザクエリを推測することにより、クエリ推論は、推論タスクとより緊密に調整しながら、座標の理解を改善する。
実験結果から、クエリ推論は、同じトレーニングデータスケールで従来のグラウンドディング手法よりも優れていることが示された。
特に、クエリ推論は、トレーニングデータの0.1%未満の大規模グラウンド拡張OS-Atlasと同等またはそれ以上のパフォーマンスを達成する。
さらに、推論形式の影響について検討し、入力に追加のセマンティック情報を統合することで推論性能がさらに向上することを示す。
コードはhttps://github.com/ZrW00/GUIPivotで公開されている。
関連論文リスト
- Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Unified Pretraining for Recommendation via Task Hypergraphs [55.98773629788986]
本稿では,タスクハイパーグラフによる推薦のための統一事前学習という,新しいマルチタスク事前学習フレームワークを提案する。
多様なプレテキストタスクの要求やニュアンスを処理するための統一学習パターンとして,プレテキストタスクをハイパーエッジ予測に一般化するタスクハイパーグラフを設計する。
各プレテキストタスクとレコメンデーションの関連性を識別的に学習するために、新しいトランジショナルアテンション層が考案される。
論文 参考訳(メタデータ) (2023-10-20T05:33:21Z) - RepSGG: Novel Representations of Entities and Relationships for Scene
Graph Generation [27.711809069547808]
RepSGGは、対象をクエリとして、オブジェクトをキーとして、そしてそれらの関係を、ペアワイズクエリとキー間の最大の注意重みとして定式化する。
RepSGGは、エンティティとリレーションシップのためのよりきめ細やかな表現力によって、関係推論のための意味的識別的および代表的ポイントをサンプリングすることを学ぶ。
RepSGGは、高速な推論速度でVisual GenomeとOpen Images V6データセットの最先端または同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-06T05:37:19Z) - Learning to Retrieve Engaging Follow-Up Queries [12.380514998172199]
ユーザが持つ可能性のある次の質問を予測するための検索ベースシステムと関連するデータセットを提案する。
このようなシステムは,ユーザの知識探索を積極的に支援することで,より活発な対話を実現する。
論文 参考訳(メタデータ) (2023-02-21T20:26:23Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Estimating the probabilities of causation via deep monotonic twin
networks [3.5953798597797673]
本稿では,2つのネットワーク対実数推定をディープラーニングを用いて実装し,対実数クエリを推定する方法を示す。
トレーニング中、既知の識別可能性の制約をどのように強制するかを示し、各対実的なクエリに対する応答が一意に決定されるようにする。
論文 参考訳(メタデータ) (2021-09-04T17:11:43Z) - Connecting Images through Time and Sources: Introducing Low-data,
Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。
Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文 参考訳(メタデータ) (2021-03-19T10:54:51Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。