論文の概要: How Smart Is Your GUI Agent? A Framework for the Future of Software Interaction
- arxiv url: http://arxiv.org/abs/2602.11514v1
- Date: Thu, 12 Feb 2026 03:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.615801
- Title: How Smart Is Your GUI Agent? A Framework for the Future of Software Interaction
- Title(参考訳): GUIエージェントはどんなに賢か? ソフトウェアインタラクションの未来のためのフレームワーク
- Authors: Sidong Feng, Chunyang Chen,
- Abstract要約: GUIエージェント自律度(GUI Agent Autonomy Levels, GAL)による概念的明瞭度を求める。
GALは6段階のフレームワークで、明示的な自律性を実現し、信頼できるソフトウェアインタラクションに向けた進捗をベンチマークするのに役立つ。
- 参考スコア(独自算出の注目度): 15.745709572650483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GUI agents are rapidly becoming a new interaction to software, allowing people to navigate web, desktop and mobile rather than execute them click by click. Yet ``agent'' is described with radically different degrees of autonomy, obscuring capability, responsibility and risk. We call for conceptual clarity through GUI Agent Autonomy Levels (GAL), a six-level framework that makes autonomy explicit and helps benchmark progress toward trustworthy software interaction.
- Abstract(参考訳): GUIエージェントは、素早くソフトウェアへの新たなインタラクションとなり、クリックで実行するのではなく、Web、デスクトップ、モバイルをナビゲートできるようになりました。
しかし 'agent'' は、自律性、能力、責任、リスクの度合いが根本的に異なる。
GUIエージェント自律レベル(GUI Agent Autonomy Levels, GAL)は、自律性を明確にし、信頼できるソフトウェアインタラクションに向けた進捗をベンチマークする6段階のフレームワークである。
関連論文リスト
- MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.21128388931945]
我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文 参考訳(メタデータ) (2025-05-29T17:59:51Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。
ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。
本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文 参考訳(メタデータ) (2024-10-09T14:49:02Z) - OpenHands: An Open Platform for AI Software Developers as Generalist Agents [109.8507367518992]
私たちは、人間の開発者と同じような方法で世界と対話するAIエージェントを開発するためのプラットフォームであるOpenHandsを紹介します。
プラットフォームが新しいエージェントの実装を可能にし、コード実行のためのサンドボックス環境との安全なインタラクション、評価ベンチマークの導入について説明する。
論文 参考訳(メタデータ) (2024-07-23T17:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。