論文の概要: GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation
- arxiv url: http://arxiv.org/abs/2510.27210v1
- Date: Fri, 31 Oct 2025 06:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.001355
- Title: GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation
- Title(参考訳): GUI-Rise:GUIナビゲーションのための構造化推論と履歴要約
- Authors: Tao Liu, Chongyu Wang, Rongjie Li, Yingchen Yu, Xuming He, Bai Song,
- Abstract要約: 本稿では,構造化推論,行動予測,履歴要約を統合した推論強化フレームワークを提案する。
このフレームワークは、履歴認識の目的を含む特別な報酬を使用し、要約品質とその後のアクションパフォーマンスを直接リンクする。
- 参考スコア(独自算出の注目度): 25.824982644530326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have advanced GUI navigation agents, current approaches face limitations in cross-domain generalization and effective history utilization. We present a reasoning-enhanced framework that systematically integrates structured reasoning, action prediction, and history summarization. The structured reasoning component generates coherent Chain-of-Thought analyses combining progress estimation and decision reasoning, which inform both immediate action predictions and compact history summaries for future steps. Based on this framework, we train a GUI agent, \textbf{GUI-Rise}, through supervised fine-tuning on pseudo-labeled trajectories and reinforcement learning with Group Relative Policy Optimization (GRPO). This framework employs specialized rewards, including a history-aware objective, directly linking summary quality to subsequent action performance. Comprehensive evaluations on standard benchmarks demonstrate state-of-the-art results under identical training data conditions, with particularly strong performance in out-of-domain scenarios. These findings validate our framework's ability to maintain robust reasoning and generalization across diverse GUI navigation tasks. Code is available at https://leon022.github.io/GUI-Rise.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)には高度なGUIナビゲーションエージェントがあるが、現在のアプローチではクロスドメインの一般化と効果的な履歴利用の制限に直面している。
本稿では,構造化推論,行動予測,履歴要約を体系的に統合する推論強化フレームワークを提案する。
構造化推論成分は、進行推定と決定推論を組み合わせたコヒーレント・チェーン・オブ・ソート(coherent Chain-of-Thought)解析を生成し、今後のステップにおいて、即時動作予測とコンパクト履歴要約の両方を通知する。
この枠組みに基づき、擬似ラベル付き軌道の教師付き微調整とグループ相対ポリシー最適化(GRPO)による強化学習によりGUIエージェントである「textbf{GUI-Rise}」を訓練する。
このフレームワークは、履歴認識の目的を含む特別な報酬を使用し、要約品質とその後のアクションパフォーマンスを直接リンクする。
標準ベンチマークの総合的な評価では、同じトレーニングデータ条件下での最先端の結果が示され、特にドメイン外シナリオのパフォーマンスは高い。
これらの結果は,多種多様なGUIナビゲーションタスクに対して,堅牢な推論と一般化を維持できるフレームワークの能力を検証するものである。
コードはhttps://leon022.github.io/GUI-Riseで入手できる。
関連論文リスト
- GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking [55.762798168494726]
GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。
提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-08-05T10:17:38Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - LLM-Guided Scenario-based GUI Testing [22.70111721644705]
本稿では,GUIのセマンティクスと文脈的関連性を理解するために,大規模言語モデルを活用するアプローチを提案する。
手動テストフェーズをシミュレートし,自動化するためにマルチエージェント協調を用いたシナリオベースGUIテストフレームワークであるScenGenを提案する。
論文 参考訳(メタデータ) (2025-06-05T14:27:40Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - A Context-Enhanced Framework for Sequential Graph Reasoning [6.207627263146009]
本稿では,様々なトレンド分野の基本課題であるグラフ構造化データに対する逐次推論について検討する。
既存のニューラルネットワークアーキテクチャを一般化し、コンテキスト強化フレームワークを提案する。
このフレームワークは既存の手法と効果的に統合でき、推論能力を高めることができる。
論文 参考訳(メタデータ) (2024-12-12T08:27:51Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。