論文の概要: HiconAgent: History Context-aware Policy Optimization for GUI Agents
- arxiv url: http://arxiv.org/abs/2512.01763v1
- Date: Mon, 01 Dec 2025 15:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.911272
- Title: HiconAgent: History Context-aware Policy Optimization for GUI Agents
- Title(参考訳): HiconAgent:GUIエージェントの履歴コンテキスト対応ポリシー最適化
- Authors: Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao,
- Abstract要約: 完全な履歴の使用は、過剰な計算オーバーヘッドと、無関係な情報への注意を喚起します。
ヒコンアジェント(HiconAgent)は、ヒストリー・コンテクスト・アウェア・ポリシー・オプティマイゼーションで訓練されたGUIエージェントである。
メインストリームのGUIナビゲーションベンチマークの実験は、強力なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 44.7305249511765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) agents require effective use of historical context to perform sequential navigation tasks. While incorporating past actions and observations can improve decision making, naive use of full history leads to excessive computational overhead and distraction from irrelevant information. To address this, we introduce HiconAgent, a GUI agent trained with History Context-aware Policy Optimization (HCPO) for efficient and effective utilization of historical information. HCPO optimizes history usage in both sampling and policy updates through two complementary components: (1) Dynamic Context Sampling (DCS) presents the agent with variable length histories during sampling, enabling adaptive use of the most relevant context; (2) Anchor-guided History Compression (AHC) refines the policy update phase with a dual branch strategy where the compressed branch removes history observations while keeping history actions as information flow anchors. The compressed and uncompressed branches are coupled through a history-enhanced alignment loss to enforce consistent history usage while maintaining efficiency. Experiments on mainstream GUI navigation benchmarks demonstrate strong performance. Despite being smaller, HiconAgent-3B outperforms GUI-R1-7B by +8.46 percent grounding accuracy and +11.32 percent step success rate on GUI-Odyssey, while achieving comparable results on AndroidControl and AITW with up to 2.47x computational speedup and 60 percent FLOPs reduction.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、シーケンシャルなナビゲーションタスクを実行するために、歴史的コンテキストを効果的に利用する必要がある。
過去の行動や観察を取り入れることで意思決定を改善することができるが、完全な履歴の使用は、過剰な計算オーバーヘッドと無関係な情報への注意を喚起する。
この問題を解決するために,ヒコンジェント (HiconAgent) は履歴情報の効率的かつ効果的な利用を目的として,ヒコンアウェアポリシー最適化 (HCPO) を用いて訓練されたGUIエージェントである。
HCPOはサンプリングとポリシー更新の両方において,(1)動的コンテキストサンプリング(DCS)はサンプリング中の可変長履歴を持つエージェントを提示し,最も関連性の高いコンテキストの適応的利用を可能にする。(2)アンカー誘導履歴圧縮(AHC)は,圧縮されたブランチが履歴をアンカーとして保持しながら履歴の観察を除去する2つの分岐戦略を用いて,ポリシー更新フェーズを洗練する。
圧縮および非圧縮の分岐は、効率を保ちながら一貫した履歴使用を強制するために、履歴強化されたアライメント損失を介して結合される。
メインストリームのGUIナビゲーションベンチマークの実験は、強力なパフォーマンスを示している。
小さいにもかかわらず、HiconAgent-3BはGUI-R1-7Bの精度+8.6%、GUI-Odysseyのステップ成功率+11.32%、AndroidControlとAITWでは2.47倍の計算スピードアップと60%のFLOPを達成している。
関連論文リスト
- History-Aware Reasoning for GUI Agents [15.519853892615272]
現在の手法では、強化学習とSystem-2 Chain-of-Thoughtを統合しており、強化の推論において顕著な利益を得ている。
本稿では,エージェントが自分自身の誤りを反映し,仮説的推論の知識を取得することを促すヒストリー・アウェア・推論フレームワークを提案する。
本研究では,HAR-GUI-3Bというネイティブ・エンド・ツー・エンド・モデルを開発した。
論文 参考訳(メタデータ) (2025-11-12T09:06:25Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation [25.824982644530326]
本稿では,構造化推論,行動予測,履歴要約を統合した推論強化フレームワークを提案する。
このフレームワークは、履歴認識の目的を含む特別な報酬を使用し、要約品質とその後のアクションパフォーマンスを直接リンクする。
論文 参考訳(メタデータ) (2025-10-31T06:10:57Z) - PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents [151.86841216364294]
textbfPAL-UI (textbfActive textbfLook-back) を提案する。
PAL-UIは、二重レベルの要約エージェントを組み合わせ、観察レベルの手がかりとアクションレベルの結果の両方を、専用の検索ツールと組み合わせる。
論文 参考訳(メタデータ) (2025-10-01T01:48:39Z) - Leveraging Scene Context with Dual Networks for Sequential User Behavior Modeling [58.72480539725212]
本稿では,シーンとアイテム間の動的興味や相互作用を捉えるために,新しいDSPネットワークを提案する。
DSPnetは、アイテムやシーンに対するユーザの動的関心を学習するための2つの並列ネットワークと、将来の振る舞いを予測するためのインタープレイをキャプチャするシーケンス機能拡張モジュールで構成されている。
論文 参考訳(メタデータ) (2025-09-30T12:26:57Z) - Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - Chain-of-Memory: Enhancing GUI Agents for Cross-Application Navigation [6.815990151030097]
CoM(Chain-of-Memory)は、GUI(Graphical User Interface)エージェントにおいて、短期記憶と長期記憶を明示的にモデル化するための新しいアプローチである。
CoMはGUIエージェントがタスク状態を理解し、重要な履歴情報を永続的に保持することを可能にする。
論文 参考訳(メタデータ) (2025-06-22T20:17:46Z) - HIPTrack: Visual Tracking with Historical Prompts [37.85656595341516]
シームズパラダイムに忠実かつ更新された履歴情報を追従するトラッカーを提供することにより,大幅な性能向上が達成できることを示す。
我々は,履歴プロンプトネットワークに基づくHIPTrackと呼ばれる新しいトラッカーを構築し,モデル全体を再トレーニングすることなく,大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2023-11-03T17:54:59Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。