論文の概要: MPR-GUI: Benchmarking and Enhancing Multilingual Perception and Reasoning in GUI Agents
- arxiv url: http://arxiv.org/abs/2512.00756v1
- Date: Sun, 30 Nov 2025 06:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.401512
- Title: MPR-GUI: Benchmarking and Enhancing Multilingual Perception and Reasoning in GUI Agents
- Title(参考訳): MPR-GUI:GUIエージェントにおける多言語認識と推論のベンチマークと強化
- Authors: Ruihan Chen, Qiming Li, Xiaocheng Feng, Xiaoliang Yang, Weihong Zhong, Yuxuan Gu, Zekun Zhou, Bing Qin,
- Abstract要約: LVLM(Large Vision-Language Models)は、GUI(Graphical User Interface)タスク上での知覚と推論(P&R)のパフォーマンスを示す。
しかし、多言語環境でのパフォーマンスはほとんど注目されず、グローバルなアプリケーションに制限が加えられている。
本稿では,GUIエージェントのP&R能力を評価するために,細粒度パーセプションと推論GUIベンチマークであるMPR-GUI-Benchを提案する。
- 参考スコア(独自算出の注目度): 42.81572211701814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of computational resources, Large Vision-Language Models (LVLMs) exhibit impressive Perception and Reasoning (P&R) performance on Graphical User Interface (GUI) tasks. However, although they demonstrate strong P&R capabilities in English GUI scenarios, their performance in multilingual settings has received little attention, which limits their global applications. Moreover, existing studies on GUI tasks lack fine-grained analyses, including widget functions and elements' spatial relationships, which are fundamental for more targeted improvements. To tackle these issues, we propose MPR-GUI-Bench, a Multilingual fine-grained Perception and Reasoning GUI Benchmark to evaluate GUI agents' P&R capabilities. Evaluation results demonstrate that LVLMs exhibit significantly worse P&R performance in non-English languages than in English. To address these gaps, we propose GUI-XLI, a GUI Cross-Lingual Intervention method that applies interventions to the hidden states at P&R capability-related layers to mitigate the gaps between English and other languages, building on previous research showing that the hidden states of different language inputs exhibit significant differences in the latent space. Experimental results indicate that our method improves GUI agents' multilingual P&R capability by 6.5% on average.
- Abstract(参考訳): 計算資源の進歩に伴い、LVLM(Large Vision-Language Models)はグラフィカルユーザインタフェース(GUI)タスク上でのパーセプションと推論(P&R)のパフォーマンスを示す。
しかし、英語のGUIシナリオでは強力なP&R機能を示すが、多言語環境でのパフォーマンスはほとんど注目されず、グローバルなアプリケーションに制限が加えられている。
さらに、GUIタスクに関する既存の研究は、ウィジェット機能や要素の空間関係など、より標的となる改善の基礎となる詳細な分析を欠いている。
これらの問題に対処するために,GUIエージェントのP&R能力を評価するための多言語パーセプションと推論GUIベンチマークであるMPR-GUI-Benchを提案する。
評価の結果,LVLMは英語よりも英語以外の言語では有意にP&R性能が劣っていることがわかった。
これらのギャップを解決するために,GUI-XLIを提案する。GUI-XLIは,言語入力の隠れ状態が潜時空間に有意な差異を示すことを示す従来の研究に基づいて,P&R能力関連層における隠れ状態への介入を緩和するGUI-Lingual Intervention法である。
実験の結果,GUIエージェントの多言語P&R能力は平均6.5%向上した。
関連論文リスト
- AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Improved GUI Grounding via Iterative Narrowing [0.03375622857152329]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - GUI Action Narrator: Where and When Did That Action Take Place? [19.344324166716245]
我々は,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。
本課題は,自然映像のキャプションに比較して,独特な課題を呈する。
GUI アクションデータセット textbfAct2Cap と GUI ビデオキャプションのためのシンプルなフレームワーク textbfGUI Narrator を紹介する。
論文 参考訳(メタデータ) (2024-06-19T17:22:11Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [57.37123046817781]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
LLaVA-v1.5-13Bは13.4%、LLaVA-v1.6-34Bは20.3%、Qwen-VLは16.7%向上した。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。