論文の概要: Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills
- arxiv url: http://arxiv.org/abs/2506.10387v1
- Date: Thu, 12 Jun 2025 06:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.602653
- Title: Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills
- Title(参考訳): Mirage-1:階層型マルチモーダルスキルによるGUIエージェントの強化と更新
- Authors: Yuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie,
- Abstract要約: 本稿では,知識不足の問題に対処するため,階層型マルチモーダルスキル(HMS)モジュールを提案する。
トラジェクトリを実行スキル、コアスキル、そして最終的にはメタスキルに徐々に抽象化し、長期のタスク計画のための階層的な知識構造を提供する。
ドメインギャップを埋めるために,Skill-Augmented Monte Carlo Tree Search (SA-MCTS)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 57.740236400672046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent efforts to leverage the Multi-modal Large Language Model (MLLM) as GUI agents have yielded promising outcomes. However, these agents still struggle with long-horizon tasks in online environments, primarily due to insufficient knowledge and the inherent gap between offline and online domains. In this paper, inspired by how humans generalize knowledge in open-ended environments, we propose a Hierarchical Multimodal Skills (HMS) module to tackle the issue of insufficient knowledge. It progressively abstracts trajectories into execution skills, core skills, and ultimately meta-skills, providing a hierarchical knowledge structure for long-horizon task planning. To bridge the domain gap, we propose the Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm, which efficiently leverages skills acquired in offline environments to reduce the action search space during online tree exploration. Building on HMS, we propose Mirage-1, a multimodal, cross-platform, plug-and-play GUI agent. To validate the performance of Mirage-1 in real-world long-horizon scenarios, we constructed a new benchmark, AndroidLH. Experimental results show that Mirage-1 outperforms previous agents by 32\%, 19\%, 15\%, and 79\% on AndroidWorld, MobileMiniWob++, Mind2Web-Live, and AndroidLH, respectively. Project page: https://cybertronagent.github.io/Mirage-1.github.io/
- Abstract(参考訳): GUIエージェントとしてMLLM(Multi-modal Large Language Model)を活用するための最近の取り組みは、有望な成果をもたらした。
しかし、これらのエージェントは、主に知識の不足とオフラインドメインとオンラインドメインの間に固有のギャップがあるため、オンライン環境での長期的なタスクに苦しむ。
本稿では,人間がオープンエンド環境で知識を一般化する方法に着想を得て,知識不足問題に対処するための階層型マルチモーダルスキル(HMS)モジュールを提案する。
トラジェクトリを実行スキル、コアスキル、そして最終的にはメタスキルに徐々に抽象化し、長期のタスク計画のための階層的な知識構造を提供する。
ドメインギャップを埋めるために,オフライン環境で獲得したスキルを効率的に活用し,オンラインツリー探索におけるアクション検索スペースを削減できるSkill-Augmented Monte Carlo Tree Search (SA-MCTS)アルゴリズムを提案する。
マルチモーダル・クロスプラットフォーム・プラグイン・アンド・プレイGUIエージェントであるMirage-1を提案する。
実世界の長距離シナリオにおけるMirage-1の性能を検証するため,新しいベンチマークAndroidLHを構築した。
実験の結果、Mirage-1は、AndroidWorld、MobileMiniWob++、Mind2Web-Live、AndroidLHで、それぞれ32\%、19\%、15\%、79\%で、以前のエージェントよりも優れていた。
プロジェクトページ: https://cybertronagent.github.io/Mirage-1.github.io/
関連論文リスト
- Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks [50.13429055093534]
上記の課題に対処するために,ハイブリッドマルチモーダルメモリモジュールを提案する。
知識を階層的指向知識グラフに変換することで,エージェントが世界知識を明示的に表現し,学習することが可能になる。
また、過去の情報を抽象化されたマルチモーダル体験プールにまとめ、エージェントにコンテキスト内学習のための豊富な参照を提供する。
Hybrid Multimodal Memoryモジュールの上に、Optimus-1というマルチモーダルエージェントが、専用の知識誘導プランナーと経験駆動リフレクタで構築されている。
論文 参考訳(メタデータ) (2024-08-07T08:16:32Z) - JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal
Language Models [38.77967315158286]
マルチモーダル入力(視覚観察と人間の指示)を知覚できるオープンワールドエージェントJARVIS-1を紹介する。
我々は,JARVIS-1をマルチモーダルメモリで構成し,事前学習した知識と実際のゲームサバイバル体験の両方を用いたプランニングを容易にする。
JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。
論文 参考訳(メタデータ) (2023-11-10T11:17:58Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。