論文の概要: AppAgent-Pro: A Proactive GUI Agent System for Multidomain Information Integration and User Assistance
- arxiv url: http://arxiv.org/abs/2508.18689v2
- Date: Wed, 27 Aug 2025 04:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 12:43:57.504756
- Title: AppAgent-Pro: A Proactive GUI Agent System for Multidomain Information Integration and User Assistance
- Title(参考訳): AppAgent-Pro:多ドメイン情報統合とユーザ支援のためのプロアクティブGUIエージェントシステム
- Authors: Yuyang Zhao, Wentao Shi, Fuli Feng, Xiangnan He,
- Abstract要約: AppAgent-Proは、ユーザ命令に基づいて複数のドメイン情報を積極的に統合するプロアクティブGUIエージェントシステムである。
AppAgent-Proは、日常生活における情報取得を根本的に再定義する可能性を秘めている。
- 参考スコア(独自算出の注目度): 64.78994124332989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based agents have demonstrated remarkable capabilities in addressing complex tasks, thereby enabling more advanced information retrieval and supporting deeper, more sophisticated human information-seeking behaviors. However, most existing agents operate in a purely reactive manner, responding passively to user instructions, which significantly constrains their effectiveness and efficiency as general-purpose platforms for information acquisition. To overcome this limitation, this paper proposes AppAgent-Pro, a proactive GUI agent system that actively integrates multi-domain information based on user instructions. This approach enables the system to proactively anticipate users' underlying needs and conduct in-depth multi-domain information mining, thereby facilitating the acquisition of more comprehensive and intelligent information. AppAgent-Pro has the potential to fundamentally redefine information acquisition in daily life, leading to a profound impact on human society. Our code is available at: https://github.com/LaoKuiZe/AppAgent-Pro. The demonstration video could be found at: https://www.dropbox.com/scl/fi/hvzqo5vnusg66srydzixo/AppAgent-Pro-demo-video.mp4?rlkey=o2nlfqgq6ihl125mcqg7bpgqu&st=d29vrzii&dl=0.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくエージェントは、複雑なタスクに対処する際、顕著な能力を示し、より高度な情報検索を可能にし、より深く、より洗練された人間の情報探索行動をサポートする。
しかし、既存のエージェントのほとんどは純粋に反応し、ユーザーの指示に受動的に応答し、情報取得のための汎用プラットフォームとしての有効性と効率を著しく制限する。
この制限を克服するために,ユーザ命令に基づく多ドメイン情報を積極的に統合するプロアクティブGUIエージェントシステムであるAppAgent-Proを提案する。
このアプローチにより,ユーザのニーズを積極的に予測し,詳細なマルチドメイン情報マイニングを行うことで,より包括的でインテリジェントな情報の取得が容易になる。
AppAgent-Proは、日常生活における情報獲得を根本的に再定義する可能性があり、人間の社会に大きな影響を及ぼす。
私たちのコードは、https://github.com/LaoKuiZe/AppAgent-Proで利用可能です。
デモビデオは、https://www.dropbox.com/scl/fi/hvzqo5vnusg66srydzixo/AppAgent-Pro-demo-video.mp4?
rlkey=o2nlfqgq6ihl125mccg7bpgqu&st=d29vrzii&dl=0。
関連論文リスト
- AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications [95.42093979627703]
AgentScopeは柔軟で効率的なツールベースのエージェント環境インタラクションをサポートする。
エージェントの動作をReActパラダイムに基盤として,エージェントレベルの高度なインフラストラクチャを提供します。
AgentScopeには、開発者フレンドリーなエクスペリエンスのための堅牢なエンジニアリングサポートも含まれている。
論文 参考訳(メタデータ) (2025-08-22T10:35:56Z) - OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。
マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。
本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文 参考訳(メタデータ) (2025-08-06T14:33:45Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - AppAgent: Multimodal Agents as Smartphone Users [23.318925173980446]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。
エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。
エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文 参考訳(メタデータ) (2023-12-21T11:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。