論文の概要: Uncertainty-Aware GUI Agent: Adaptive Perception through Component Recommendation and Human-in-the-Loop Refinement
- arxiv url: http://arxiv.org/abs/2508.04025v1
- Date: Wed, 06 Aug 2025 02:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.507833
- Title: Uncertainty-Aware GUI Agent: Adaptive Perception through Component Recommendation and Human-in-the-Loop Refinement
- Title(参考訳): 不確かさを意識したGUIエージェント:コンポーネント勧告による適応的認識とロボットの人間-in-the-Loop再定義
- Authors: Chao Hao, Shuai Wang, Kaiwen Zhou,
- Abstract要約: 適応認識によってこれらの問題に対処する不確実性認識エージェントである textbfRecAgent を提案する。
知覚の不確実性を低減するため、RecAgentはコンポーネントレコメンデーションメカニズムを採用し、最も関連性の高いUI要素を特定し、フォーカスする。
決定の不確実性のために、インタラクティブなモジュールを使用して、不明瞭な状況でユーザからのフィードバックをリクエストし、意図を認識した決定を可能にする。
- 参考スコア(独自算出の注目度): 11.63498742723335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical user interface (GUI) agents have shown promise in automating mobile tasks but still struggle with input redundancy and decision ambiguity. In this paper, we present \textbf{RecAgent}, an uncertainty-aware agent that addresses these issues through adaptive perception. We distinguish two types of uncertainty in GUI navigation: (1) perceptual uncertainty, caused by input redundancy and noise from comprehensive screen information, and (2) decision uncertainty, arising from ambiguous tasks and complex reasoning. To reduce perceptual uncertainty, RecAgent employs a component recommendation mechanism that identifies and focuses on the most relevant UI elements. For decision uncertainty, it uses an interactive module to request user feedback in ambiguous situations, enabling intent-aware decisions. These components are integrated into a unified framework that proactively reduces input complexity and reacts to high-uncertainty cases via human-in-the-loop refinement. Additionally, we propose a dataset called \textbf{ComplexAction} to evaluate the success rate of GUI agents in executing specified single-step actions within complex scenarios. Extensive experiments validate the effectiveness of our approach. The dataset and code will be available at https://github.com/Fanye12/RecAgent.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、モバイルタスクの自動化において有望であるが、それでも入力冗長性と決定の曖昧さに苦慮している。
本稿では,これらの問題に適応認識を通して対処する不確実性認識エージェントであるtextbf{RecAgent}を提案する。
GUIナビゲーションにおける不確実性は,(1)入力冗長性やノイズによる知覚の不確実性,(2)不明瞭なタスクや複雑な推論から生じる決定の不確実性である。
知覚の不確実性を低減するため、RecAgentはコンポーネントレコメンデーションメカニズムを採用し、最も関連性の高いUI要素を特定し、フォーカスする。
決定の不確実性のために、インタラクティブなモジュールを使用して、不明瞭な状況でユーザからのフィードバックをリクエストし、意図を認識した決定を可能にする。
これらのコンポーネントは統合されたフレームワークに統合され、入力の複雑さを積極的に低減し、Human-in-the-loopリファインメントを通じて高不確実性ケースに反応する。
また,複雑なシナリオ内で特定の単一ステップアクションを実行する場合のGUIエージェントの成功率を評価するために,textbf{complexAction} というデータセットを提案する。
大規模な実験により、我々のアプローチの有効性が検証された。
データセットとコードはhttps://github.com/Fanye12/RecAgent.comから入手できる。
関連論文リスト
- GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。
まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。
第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - Reward-Driven Interaction: Enhancing Proactive Dialogue Agents through User Satisfaction Prediction [22.105598216923706]
本稿では,ユーザの発話の表現学習を改善するための2つの補助的タスクと,ユーザの満足度を予測するセッションを提案する。
提案手法はDuerOS上で評価され、希少なユーザ発話や長い尾領域における誤り認識の精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-05-24T15:01:30Z) - CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering [13.624962763072899]
KGQAシステムは通常、ユーザクエリは曖昧であると仮定するが、これは現実世界のアプリケーションではめったに行われない仮定である。
本稿では,対話的明確化を通じて,エンティティのあいまいさ(類似した名前を持つエンティティの区別など)と意図のあいまいさ(ユーザクエリの異なる解釈を明確にするなど)を動的に扱う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-13T17:34:35Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Enhancing Trust in Autonomous Agents: An Architecture for Accountability and Explainability through Blockchain and Large Language Models [0.3495246564946556]
この研究は、ROSベースの移動ロボットに実装された説明可能性と説明可能性のアーキテクチャを示す。
提案されたソリューションは2つの主要コンポーネントで構成されている。まず、説明責任を提供するブラックボックスのような要素で、ブロックチェーン技術によって達成されるアンチタンパ特性を特徴とする。
第二に、前述のブラックボックスに含まれるデータに対して、Large Language Models(LLM)の機能を利用することで、自然言語の説明を生成するコンポーネントである。
論文 参考訳(メタデータ) (2024-03-14T16:57:18Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for
Test-Time Policy Adaptation [20.266695694005943]
ポリシーは新しい環境にポリシーがデプロイされたときに発生する状態と報酬の変化によって、しばしば失敗する。
データ拡張は、エージェントの観察におけるタスク非関連の変化にモデルを不変にすることで、ロバスト性を高めることができる。
本稿では,ユーザからのフィードバックを直接活用して,タスク関連概念をパーソナライズする対話型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-12T17:55:08Z) - Task-Oriented Over-the-Air Computation for Multi-Device Edge AI [57.50247872182593]
エッジAIをサポートするための6Gネットワークは、AIタスクの効率的かつ効率的な実行に焦点を当てたタスク指向のテクニックを備えている。
本稿では,マルチデバイススプリット推論システムにおけるタスク指向オーバー・ザ・エア計算(AirComp)方式を提案する。
論文 参考訳(メタデータ) (2022-11-02T16:35:14Z) - Dirichlet uncertainty wrappers for actionable algorithm accuracy
accountability and auditability [0.5156484100374058]
本研究では,不確実性の尺度を用いて出力予測を充実させるラッパーを提案する。
結果の不確実性に基づいて、より確実な予測を選択する拒絶制度を提唱する。
その結果,ラッパーが計算した不確実性の有効性が示された。
論文 参考訳(メタデータ) (2019-12-29T11:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。