論文の概要: AppAgent-Claw: CLI Is All You Need for GUI Automation
- arxiv url: http://arxiv.org/abs/2606.05171v1
- Date: Wed, 15 Apr 2026 17:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.620343
- Title: AppAgent-Claw: CLI Is All You Need for GUI Automation
- Title(参考訳): AppAgent-Claw: GUI自動化に必要なCLI
- Authors: Zhixue Song, Zhiheng Zhang, Yi Song, Chi Zhang,
- Abstract要約: AppAgent-Clawは、GUIを実行時推論なしで信頼性のある再利用可能なスキルに変換するデモ駆動システムである。
視覚的なシフトを処理するためにレイヤ化されたローカライゼーション戦略と、スクリーン上の意図された効果を保証するためのバリデーション結合実行モデルを採用している。
- 参考スコア(独自算出の注目度): 9.116481317329493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The OpenClaw platform provides a practical foundation for automation through its skill-oriented architecture, organizing external capabilities into lightweight, reusable components that can be invoked efficiently through a command-line interface (CLI). However, a significant bottleneck remains: many real-world tasks are confined to graphical user interfaces (GUIs) with no stable API available. While LLM-based GUI agents offer generality, their reliance on repeated live model inference makes them too slow, costly, and inconsistent to serve as efficient OpenClaw skills. In this paper, we present AppAgent-Claw, a demonstration-driven system that converts GUI workflows into reliable, reusable skills without runtime inference. By following a ``record-once, replay-many'' paradigm, the system captures rich contextual metadata to facilitate robust execution. It employs a layered localization strategy to handle visual shifts and a validation-coupled execution model to ensure intended on-screen effects. AppAgent-Claw provides a practical, efficient, and diagnosable solution for integrating GUI-bound tasks into the OpenClaw ecosystem.
- Abstract(参考訳): OpenClawプラットフォームは、スキル指向アーキテクチャを通じて自動化のための実践的な基盤を提供し、外部機能を軽量で再利用可能なコンポーネントに編成し、コマンドラインインターフェース(CLI)を通じて効率的に呼び出すことができる。
多くの現実世界のタスクはグラフィカルなユーザーインターフェイス(GUI)に限られており、安定したAPIは利用できない。
LLMベースのGUIエージェントは汎用性を提供するが、ライブモデル推論の繰り返しに依存しているため、効率のよいOpenClawスキルとして機能するには遅すぎる、コストがかかる、一貫性がない。
本稿では,GUIワークフローを実行時推論なしで信頼性の高い再利用可能なスキルに変換するデモ駆動システムであるAppAgent-Clawを提案する。
record-once, replay-many''パラダイムに従うことで、システムはリッチなコンテキストメタデータをキャプチャして、堅牢な実行を容易にする。
視覚的なシフトを処理するためにレイヤ化されたローカライゼーション戦略と、スクリーン上の意図された効果を保証するためのバリデーション結合実行モデルを採用している。
AppAgent-Clawは、GUIバウンドタスクをOpenClawエコシステムに統合するための実用的で効率的で診断可能なソリューションを提供する。
関連論文リスト
- ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents [54.04035382782041]
textbfClawGUI-RLは、並列仮想環境と実際の物理デバイスの両方をサポートする最初のオープンソースのGUIエージェントRLインフラストラクチャを提供する。
textbfClawGUI-Evalは6つのベンチマークと11以上のモデルで完全に標準化された評価パイプラインを実行する。
textbfClawGUI-Agentは、12以上のチャットプラットフォームを通じて、Android、HarmonyOS、iOSにトレーニングされたエージェントを提供し、ハイブリッドCLI-GUIコントロールとパーソナライズされたパーソナライズされたメモリを提供する。
論文 参考訳(メタデータ) (2026-04-13T17:52:04Z) - A Multimodal GUI Architecture for Interfacing with LLM-Based Conversational Assistants [0.0]
本稿では、GUIが音声対応アシスタントと対話できる具体的なアーキテクチャを提供する。
アーキテクチャにより、アプリケーションのナビゲーショングラフとセマンティクスは、モデルコンテキストプロトコル(MCP)を介して利用可能になる。
プライバシとデータセキュリティに関する懸念に対処するため、音声対応マルチモーダルUIのためのローカル展開可能なオープンウェイトLLMの実用的有効性を評価した。
論文 参考訳(メタデータ) (2025-08-31T14:40:11Z) - MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。