論文の概要: MPR-GUI: Benchmarking and Enhancing Multilingual Perception and Reasoning in GUI Agents
- arxiv url: http://arxiv.org/abs/2512.00756v1
- Date: Sun, 30 Nov 2025 06:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.401512
- Title: MPR-GUI: Benchmarking and Enhancing Multilingual Perception and Reasoning in GUI Agents
- Title(参考訳): MPR-GUI:GUIエージェントにおける多言語認識と推論のベンチマークと強化
- Authors: Ruihan Chen, Qiming Li, Xiaocheng Feng, Xiaoliang Yang, Weihong Zhong, Yuxuan Gu, Zekun Zhou, Bing Qin,
- Abstract要約: LVLM(Large Vision-Language Models)は、GUI(Graphical User Interface)タスク上での知覚と推論(P&R)のパフォーマンスを示す。
しかし、多言語環境でのパフォーマンスはほとんど注目されず、グローバルなアプリケーションに制限が加えられている。
本稿では,GUIエージェントのP&R能力を評価するために,細粒度パーセプションと推論GUIベンチマークであるMPR-GUI-Benchを提案する。
- 参考スコア(独自算出の注目度): 42.81572211701814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of computational resources, Large Vision-Language Models (LVLMs) exhibit impressive Perception and Reasoning (P&R) performance on Graphical User Interface (GUI) tasks. However, although they demonstrate strong P&R capabilities in English GUI scenarios, their performance in multilingual settings has received little attention, which limits their global applications. Moreover, existing studies on GUI tasks lack fine-grained analyses, including widget functions and elements' spatial relationships, which are fundamental for more targeted improvements. To tackle these issues, we propose MPR-GUI-Bench, a Multilingual fine-grained Perception and Reasoning GUI Benchmark to evaluate GUI agents' P&R capabilities. Evaluation results demonstrate that LVLMs exhibit significantly worse P&R performance in non-English languages than in English. To address these gaps, we propose GUI-XLI, a GUI Cross-Lingual Intervention method that applies interventions to the hidden states at P&R capability-related layers to mitigate the gaps between English and other languages, building on previous research showing that the hidden states of different language inputs exhibit significant differences in the latent space. Experimental results indicate that our method improves GUI agents' multilingual P&R capability by 6.5% on average.
- Abstract(参考訳): 計算資源の進歩に伴い、LVLM(Large Vision-Language Models)はグラフィカルユーザインタフェース(GUI)タスク上でのパーセプションと推論(P&R)のパフォーマンスを示す。
しかし、英語のGUIシナリオでは強力なP&R機能を示すが、多言語環境でのパフォーマンスはほとんど注目されず、グローバルなアプリケーションに制限が加えられている。
さらに、GUIタスクに関する既存の研究は、ウィジェット機能や要素の空間関係など、より標的となる改善の基礎となる詳細な分析を欠いている。
これらの問題に対処するために,GUIエージェントのP&R能力を評価するための多言語パーセプションと推論GUIベンチマークであるMPR-GUI-Benchを提案する。
評価の結果,LVLMは英語よりも英語以外の言語では有意にP&R性能が劣っていることがわかった。
これらのギャップを解決するために,GUI-XLIを提案する。GUI-XLIは,言語入力の隠れ状態が潜時空間に有意な差異を示すことを示す従来の研究に基づいて,P&R能力関連層における隠れ状態への介入を緩和するGUI-Lingual Intervention法である。
実験の結果,GUIエージェントの多言語P&R能力は平均6.5%向上した。
関連論文リスト
- See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch [20.231957791642635]
本稿では,Scratchにおけるプログラム・バイ・コンストラクションタスクにおけるマルチモーダルGUIエージェントの評価ベンチマークであるScratchWorldを紹介する。
ScratchWorldは、Create、Debug、Extended、Computeの4つの異なる問題カテゴリにまたがる83のキュレートされたタスクで構成されている。
信頼性の高い評価を実現するため,構築したScratchプログラムの機能的正当性を検証した実行ベース評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-11T12:54:53Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking [55.762798168494726]
GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。
提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-08-05T10:17:38Z) - PromotionGo at SemEval-2025 Task 11: A Feature-Centric Framework for Cross-Lingual Multi-Emotion Detection in Short Texts [1.210852962855694]
本稿では,SemEval 2025 Task 11: Bridging the Gap in Text-based Emotion Detectionについて述べる。
本稿では,文書表現と学習アルゴリズムを動的に適用し,言語固有の性能を最適化する機能中心フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-11T11:21:18Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Improved GUI Grounding via Iterative Narrowing [0.03375622857152329]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - GUI Action Narrator: Where and When Did That Action Take Place? [19.344324166716245]
我々は,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。
本課題は,自然映像のキャプションに比較して,独特な課題を呈する。
GUI アクションデータセット textbfAct2Cap と GUI ビデオキャプションのためのシンプルなフレームワーク textbfGUI Narrator を紹介する。
論文 参考訳(メタデータ) (2024-06-19T17:22:11Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [57.37123046817781]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
LLaVA-v1.5-13Bは13.4%、LLaVA-v1.6-34Bは20.3%、Qwen-VLは16.7%向上した。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。