論文の概要: Chain-of-Memory: Enhancing GUI Agents for Cross-Application Navigation
- arxiv url: http://arxiv.org/abs/2506.18158v1
- Date: Sun, 22 Jun 2025 20:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.780937
- Title: Chain-of-Memory: Enhancing GUI Agents for Cross-Application Navigation
- Title(参考訳): Chain-of-Memory: クロスアプリケーションナビゲーションのためのGUIエージェントの強化
- Authors: Xinzge Gao, Chuanrui Hu, Bin Chen, Teng Li,
- Abstract要約: CoM(Chain-of-Memory)は、GUI(Graphical User Interface)エージェントにおいて、短期記憶と長期記憶を明示的にモデル化するための新しいアプローチである。
CoMはGUIエージェントがタスク状態を理解し、重要な履歴情報を永続的に保持することを可能にする。
- 参考スコア(独自算出の注目度): 6.815990151030097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are attracting growing attention in the development of Graphical User Interface (GUI) agents. Existing approaches often rely on historical screenshots or actions to implicitly represent the task state. This reliance poses challenges for GUI agents in accurately understanding task states and underscores the absence of effective mechanisms to store critical information in complex and lengthy cross-app tasks. To address these challenges, we propose Chain-of-Memory (CoM), a novel approach for explicitly modeling short-term and long-term memory in GUI agents. CoM achieves this by capturing action descriptions, integrating task-relevant screen information, and maintaining a dedicated memory module to store and manage this information. By leveraging explicit memory representations, CoM enables GUI agents to better understand task states and retain critical historical information persistently. To equip GUI agents with memory management capabilities and evaluate the effectiveness of CoM, we developed the GUI Odyssey-CoM, a dataset comprising 111k screen-action pairs annotated with Chain-of-Memory. Experimental results demonstrate that CoM significantly improves GUI agents' performance in cross-application tasks. Additionally, GUI Odyssey-CoM enables 7B models to achieve memory management capabilities comparable to 72B models. The dataset and code will be open-sourced.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントの開発において,マルチモーダルな大規模言語モデル (MLLM) が注目されている。
既存のアプローチは、タスク状態を暗黙的に表現するために、しばしば過去のスクリーンショットやアクションに依存します。
この依存は、GUIエージェントがタスク状態を正確に理解し、重要な情報を複雑で長期にわたるクロスアプリタスクに格納する効果的なメカニズムがないことを裏付ける。
このような課題に対処するために,GUIエージェントの短期記憶と長期記憶を明示的にモデル化するための新しい手法であるChain-of-Memory (CoM)を提案する。
CoMは、アクション記述をキャプチャし、タスク関連画面情報を統合し、この情報を保存および管理するための専用のメモリモジュールを維持することで、これを実現する。
明示的なメモリ表現を活用することで、GUIエージェントはタスク状態を理解し、重要な履歴情報を永続的に保持することができる。
また,GUIエージェントにメモリ管理機能を持たせ,CoMの有効性を評価するためにGUI Odyssey-CoMを開発した。
実験の結果,CoMはアプリケーション間通信におけるGUIエージェントの性能を著しく向上させることがわかった。
さらにGUI Odyssey-CoMは、7Bモデルで72Bモデルに匹敵するメモリ管理能力を実現できる。
データセットとコードはオープンソースになる。
関連論文リスト
- MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Task Memory Engine (TME): A Structured Memory Framework with Graph-Aware Extensions for Multi-Step LLM Agent Tasks [0.0]
階層型タスクメモリツリー(TMT)を用いてタスク実行を追跡する軽量で構造化されたメモリモジュールを提案する。
TMEはグラフ対応に設計されており、再利用可能なサブステップ、タスクパスの収束、依存関係の共有をサポートする。
論文 参考訳(メタデータ) (2025-04-11T13:38:36Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。
実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。