論文の概要: History-Aware Reasoning for GUI Agents
- arxiv url: http://arxiv.org/abs/2511.09127v1
- Date: Thu, 13 Nov 2025 01:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.423291
- Title: History-Aware Reasoning for GUI Agents
- Title(参考訳): GUIエージェントの履歴認識推論
- Authors: Ziwei Wang, Leyang Yang, Xiaoxuan Tang, Sheng Zhou, Dajun Chen, Wei Jiang, Yong Li,
- Abstract要約: 現在の手法では、強化学習とSystem-2 Chain-of-Thoughtを統合しており、強化の推論において顕著な利益を得ている。
本稿では,エージェントが自分自身の誤りを反映し,仮説的推論の知識を取得することを促すヒストリー・アウェア・推論フレームワークを提案する。
本研究では,HAR-GUI-3Bというネイティブ・エンド・ツー・エンド・モデルを開発した。
- 参考スコア(独自算出の注目度): 15.519853892615272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in Multimodal Large Language Models have significantly enhanced Graphical User Interface (GUI) automation. Equipping GUI agents with reliable episodic reasoning capabilities is essential for bridging the gap between users' concise task descriptions and the complexities of real-world execution. Current methods integrate Reinforcement Learning (RL) with System-2 Chain-of-Thought, yielding notable gains in reasoning enhancement. For long-horizon GUI tasks, historical interactions connect each screen to the goal-oriented episode chain, and effectively leveraging these clues is crucial for the current decision. However, existing native GUI agents exhibit weak short-term memory in their explicit reasoning, interpreting the chained interactions as discrete screen understanding, i.e., unawareness of the historical interactions within the episode. This history-agnostic reasoning challenges their performance in GUI automation. To alleviate this weakness, we propose a History-Aware Reasoning (HAR) framework, which encourages an agent to reflect on its own errors and acquire episodic reasoning knowledge from them via tailored strategies that enhance short-term memory in long-horizon interaction. The framework mainly comprises constructing a reflective learning scenario, synthesizing tailored correction guidelines, and designing a hybrid RL reward function. Using the HAR framework, we develop a native end-to-end model, HAR-GUI-3B, which alters the inherent reasoning mode from history-agnostic to history-aware, equipping the GUI agent with stable short-term memory and reliable perception of screen details. Comprehensive evaluations across a range of GUI-related benchmarks demonstrate the effectiveness and generalization of our method.
- Abstract(参考訳): マルチモーダル大規模言語モデルの進歩は、グラフィカルユーザインタフェース(GUI)の自動化を著しく強化した。
ユーザの簡潔なタスク記述と実世界の実行の複雑さのギャップを埋めるためには,GUIエージェントに信頼性のある推論機能を持たせることが不可欠である。
現在の手法では、強化学習(Reinforcement Learning, RL)とSystem-2 Chain-of-Thoughtを統合し、強化の推論において顕著な利益をもたらす。
長期GUIタスクでは、各画面をゴール指向のエピソードチェーンに接続し、これらのヒントを効果的に活用することが現在の決定に不可欠である。
しかし、既存のネイティブGUIエージェントは、その明示的な推論において弱い短期記憶を示し、連鎖した相互作用を個別の画面理解、すなわちエピソード内の歴史的相互作用の無知と解釈する。
この履歴に依存しない推論は、GUI自動化における彼らのパフォーマンスに挑戦する。
この弱点を緩和するために、エージェントが自身のエラーを反映し、長期的相互作用において短期記憶を高めるための調整された戦略により、それらからエピソード推論知識を得るよう促すヒストリー・アウェア・推論(HAR)フレームワークを提案する。
このフレームワークは、主に反射学習シナリオの構築、調整済み修正ガイドラインの合成、ハイブリッドRL報酬関数の設計を含む。
HARフレームワークを用いて,HAR-GUI-3Bというネイティブ・エンド・ツー・エンド・モデルを開発した。
GUI関連ベンチマークの総合的な評価は,本手法の有効性と一般化を実証している。
関連論文リスト
- GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation [25.824982644530326]
本稿では,構造化推論,行動予測,履歴要約を統合した推論強化フレームワークを提案する。
このフレームワークは、履歴認識の目的を含む特別な報酬を使用し、要約品質とその後のアクションパフォーマンスを直接リンクする。
論文 参考訳(メタデータ) (2025-10-31T06:10:57Z) - GUI-PRA: Process Reward Agent for GUI Tasks [25.20594694997543]
プロセスリワードモデル(Process Reward Models, PRM)は、推論中に重要なプロセス信号でこれらのエージェントをガイドできる、有望なソリューションである。
PRMは「中間の失われた」現象に悩まされ、歴史的に圧倒的な状況が現在の段階の評価を損なう。
GUI-PRA(Process Reward Agent for GUI Tasks)は,標準的なPRMよりも優れたプロセス報酬の提供を目的とした判定エージェントである。
論文 参考訳(メタデータ) (2025-09-27T11:42:36Z) - GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning [11.909652592163896]
GUI-ReWalkは、現実的で多様なGUIトラジェクトリを合成するための多段階フレームワークである。
GUI-ReWalkは、ランダム性と構造に対するゴール認識推論を組み合わせることで、人間のコンピュータインタラクションの意図認識、適応性をよりよく反映したデータを生成する。
その結果、GUI-ReWalkは、多様な相互作用フロー、より高い軌道エントロピー、よりリアルなユーザインテントのカバレッジを向上できることを示した。
論文 参考訳(メタデータ) (2025-09-19T08:09:18Z) - MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Chain-of-Memory: Enhancing GUI Agents for Cross-Application Navigation [6.815990151030097]
CoM(Chain-of-Memory)は、GUI(Graphical User Interface)エージェントにおいて、短期記憶と長期記憶を明示的にモデル化するための新しいアプローチである。
CoMはGUIエージェントがタスク状態を理解し、重要な履歴情報を永続的に保持することを可能にする。
論文 参考訳(メタデータ) (2025-06-22T20:17:46Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。