論文の概要: ReInAgent: A Context-Aware GUI Agent Enabling Human-in-the-Loop Mobile Task Navigation
- arxiv url: http://arxiv.org/abs/2510.07988v1
- Date: Thu, 09 Oct 2025 09:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.984646
- Title: ReInAgent: A Context-Aware GUI Agent Enabling Human-in-the-Loop Mobile Task Navigation
- Title(参考訳): ReInAgent: ヒューマン・イン・ザ・ループ・モバイルタスクナビゲーションを実現するコンテキスト対応GUIエージェント
- Authors: Haitao Jia, Ming He, Zimo Yin, Likang Wu, Jianping Fan, Jitao Sang,
- Abstract要約: ReInAgentは、ヒューマン・イン・ザ・ループのモバイルタスクナビゲーションを可能にする、コンテキスト対応のマルチエージェントフレームワークである。
これは、明確で静的なタスク仮定に依存する既存のアプローチの制限を克服する。
真のユーザの好みとより緊密に一致した結果を生み出すのです。
- 参考スコア(独自算出の注目度): 26.254354188188177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile GUI agents exhibit substantial potential to facilitate and automate the execution of user tasks on mobile phones. However, exist mobile GUI agents predominantly privilege autonomous operation and neglect the necessity of active user engagement during task execution. This omission undermines their adaptability to information dilemmas including ambiguous, dynamically evolving, and conflicting task scenarios, leading to execution outcomes that deviate from genuine user requirements and preferences. To address these shortcomings, we propose ReInAgent, a context-aware multi-agent framework that leverages dynamic information management to enable human-in-the-loop mobile task navigation. ReInAgent integrates three specialized agents around a shared memory module: an information-managing agent for slot-based information management and proactive interaction with the user, a decision-making agent for conflict-aware planning, and a reflecting agent for task reflection and information consistency validation. Through continuous contextual information analysis and sustained user-agent collaboration, ReInAgent overcomes the limitation of existing approaches that rely on clear and static task assumptions. Consequently, it enables more adaptive and reliable mobile task navigation in complex, real-world scenarios. Experimental results demonstrate that ReInAgent effectively resolves information dilemmas and produces outcomes that are more closely aligned with genuine user preferences. Notably, on complex tasks involving information dilemmas, ReInAgent achieves a 25% higher success rate than Mobile-Agent-v2.
- Abstract(参考訳): モバイルGUIエージェントは、携帯電話上でのユーザタスクの実行を容易にし、自動化する大きな可能性を秘めている。
しかし、モバイルGUIエージェントは、主に自律的な操作を特権化し、タスク実行中にアクティブなユーザエンゲージメントの必要性を無視する。
この省略は、曖昧で動的に進化し、矛盾するタスクシナリオを含む情報ジレンマへの適応性を損なう。
これらの欠点に対処するために、動的情報管理を活用してヒューマン・イン・ザ・ループ・モバイルタスクナビゲーションを可能にするコンテキスト認識型マルチエージェントフレームワークReInAgentを提案する。
ReInAgentは、スロットベースの情報管理とユーザとの積極的なインタラクションのための情報管理エージェント、コンフリクト・アウェア・プランニングのための意思決定エージェント、タスクのリフレクションと情報整合性検証のためのリフレクションエージェントの3つの特別なエージェントを統合する。
ReInAgentは、継続的なコンテキスト情報分析と持続的なユーザエージェントコラボレーションを通じて、明確で静的なタスク仮定に依存する既存のアプローチの制限を克服する。
これにより、複雑な実世界のシナリオにおいて、より適応的で信頼性の高いモバイルタスクナビゲーションが可能になる。
実験の結果,ReInAgentは情報ジレンマを効果的に解決し,真のユーザの嗜好とより密に一致した結果を生成することがわかった。
特に、情報ジレンマを含む複雑なタスクにおいて、ReInAgentはMobile-Agent-v2よりも25%高い成功率を達成する。
関連論文リスト
- AppAgent-Pro: A Proactive GUI Agent System for Multidomain Information Integration and User Assistance [64.78994124332989]
AppAgent-Proは、ユーザ命令に基づいて複数のドメイン情報を積極的に統合するプロアクティブGUIエージェントシステムである。
AppAgent-Proは、日常生活における情報取得を根本的に再定義する可能性を秘めている。
論文 参考訳(メタデータ) (2025-08-26T05:23:24Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。