論文の概要: GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection
- arxiv url: http://arxiv.org/abs/2605.28534v1
- Date: Wed, 27 May 2026 14:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.117836
- Title: GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection
- Title(参考訳): GUI-CIDER:因果内在化と密度認識外見再選択による中級訓練GUIエージェント
- Authors: Zheng Wu, Chengcheng Han, Zhengxi Lu, Tianjie Ju, Yanyu Chen, Qi Gu, Xunliang Cai, Zhuosheng Zhang,
- Abstract要約: 既存のソリューションは、高価なマルチエージェントの足場や従来のポストトレーニングパラダイムに依存している。
本稿では,GUIの世界知識を因果的内在化と密度認識による模範的再選択によって明示的に内部化する中級学習手法であるGUI-CIDERを提案する。
2つのGUI知識ベンチマークと3つのタスク補完ベンチマークの実験により、GUI-CIDERはエージェントのGUI操作に対する理解とタスク成功率の両方を一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 26.58169185548789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid progress of multimodal large language models in building Graphical User Interface (GUI) agents, their real-world task completion is fundamentally bottlenecked by a lack of world knowledge about GUI operations. Existing solutions typically rely on expensive multi-agent scaffolding or conventional post-training paradigms, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). However, post-training only allows agents to implicitly absorb world knowledge through action annotations or reward signals, leading to inefficient trajectory memorization rather than genuine comprehension. Therefore, an approach that enables explicit learning of this knowledge is imperative. To this end, we propose GUI-CIDER, a mid-training method that explicitly internalizes GUI world knowledge through Causal Internalization and Density-aware Exemplar Reselection. GUI-CIDER operates in three stages: (1) data synthesis, which distills static planning and dynamic causal knowledge from GUI trajectories into text; (2) exemplar reselection, which filters the corpus by rewarding causal structures and penalizing semantic redundancy; and (3) mid-training, where the refined data is used to embed the acquired knowledge. Extensive experiments on two GUI knowledge benchmarks and three task completion benchmarks demonstrate that GUI-CIDER consistently improves both the agent's understanding of GUI operations and its task success rates.The codes are available at https://github.com/Wuzheng02/GUI-CIDER.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェント構築における多モーダルな大規模言語モデルの急速な進歩にもかかわらず、実際のタスク完了はGUI操作に関する世界の知識の欠如によって根本的にボトルネックとなる。
既存のソリューションは、一般的に高価なマルチエージェントの足場や、Supervised Fine-Tuning (SFT) やReinforcement Learning (RL) といった従来のポストトレーニングパラダイムに依存している。
しかし、訓練後のみ、エージェントはアクションアノテーションや報酬信号を通じて暗黙的に世界の知識を吸収することができ、真の理解よりも非効率な軌跡記憶に繋がる。
したがって、この知識の明示的な学習を可能にするアプローチは必須である。
そこで本研究では,GUIの世界知識を因果的内在化と密度対応の模範的再選択によって明示的に内部化する中級学習手法であるGUI-CIDERを提案する。
GUI-CIDERは,(1)GUIトラジェクトリから静的な計画と動的因果知識をテキストに抽出するデータ合成,(2)因果構造に報酬を与えてコーパスをフィルタリングする例の再選択,(3)洗練されたデータが取得した知識を埋め込む中間訓練の3段階で動作する。
2つのGUI知識ベンチマークと3つのタスク補完ベンチマークに関する大規模な実験は、GUI-CIDERがエージェントのGUI操作の理解とタスク成功率の両方を一貫して改善していることを示し、そのコードはhttps://github.com/Wuzheng02/GUI-CIDERで公開されている。
関連論文リスト
- GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents [39.807839972627015]
GUIタスクにおける能動的視覚知覚のための強化学習フレームワークであるGUI-Eyesを提案する。
我々は、意思決定を粗い探索ときめ細かい接地に分解する進歩的認識戦略を導入する。
ScreenSpot-Proベンチマークでは、GUI-Eyes-3Bは3kラベルのサンプルのみを使用して44.8%のグラウンド精度を達成した。
論文 参考訳(メタデータ) (2026-01-14T14:27:28Z) - EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration [16.593979443102754]
エージェントに動的にアクセス可能なメモリを装備することで、人間のような体験学習を模倣する新しいフレームワークであるEchoTrail-GUIを紹介する。
まず、エージェントがGUI環境と自律的に対話して、成功しているタスク軌跡のキュレートされたデータベースを構築し、報酬モデルで検証する。
第2に、メモリインジェクションの段階では、新しいタスクを受信すると、最も関連性の高い過去の軌跡を効率よく検索して「記憶」として機能させる。
第3に、GUIタスク推論において、これらの記憶は、エージェントの推論と意思決定プロセスに通知するためのコンテキスト内ガイダンスとして注入される。
論文 参考訳(メタデータ) (2025-12-22T13:42:18Z) - History-Aware Reasoning for GUI Agents [15.519853892615272]
現在の手法では、強化学習とSystem-2 Chain-of-Thoughtを統合しており、強化の推論において顕著な利益を得ている。
本稿では,エージェントが自分自身の誤りを反映し,仮説的推論の知識を取得することを促すヒストリー・アウェア・推論フレームワークを提案する。
本研究では,HAR-GUI-3Bというネイティブ・エンド・ツー・エンド・モデルを開発した。
論文 参考訳(メタデータ) (2025-11-12T09:06:25Z) - MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。
本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。
SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-22T16:01:06Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。