Fugu-MT 論文翻訳(概要): BacktrackAgent: Enhancing GUI Agent with Error Detection and Backtracking Mechanism

論文の概要: BacktrackAgent: Enhancing GUI Agent with Error Detection and Backtracking Mechanism

arxiv url: http://arxiv.org/abs/2505.20660v1
Date: Tue, 27 May 2025 03:09:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.374819
Title: BacktrackAgent: Enhancing GUI Agent with Error Detection and Backtracking Mechanism
Title（参考訳）: BacktrackAgent: エラー検出とバックトラッキング機構を備えたGUIエージェントの強化
Authors: Qinzhuo Wu, Pengzhi Gao, Wei Liu, Jian Luan,
Abstract要約: BacktrackAgentは、タスク完了効率を改善するバックトラック機構を組み込んだフレームワークである。 BacktrackAgentはMobile3MとAuto-UIベンチマークでタスク成功率とステップ精度の両方でパフォーマンス改善を実現している。
参考スコア（独自算出の注目度）: 11.786947907397131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graphical User Interface (GUI) agents have gained substantial attention due to their impressive capabilities to complete tasks through multiple interactions within GUI environments. However, existing agents primarily focus on enhancing the accuracy of individual actions and often lack effective mechanisms for detecting and recovering from errors. To address these shortcomings, we propose the BacktrackAgent, a robust framework that incorporates a backtracking mechanism to improve task completion efficiency. BacktrackAgent includes verifier, judger, and reflector components as modules for error detection and recovery, while also applying judgment rewards to further enhance the agent's performance. Additionally, we develop a training dataset specifically designed for the backtracking mechanism, which considers the outcome pages after action executions. Experimental results show that BacktrackAgent has achieved performance improvements in both task success rate and step accuracy on Mobile3M and Auto-UI benchmarks. Our data and code will be released upon acceptance.
Abstract（参考訳）: グラフィカルユーザインタフェース(GUI)エージェントは、GUI環境内の複数のインタラクションを通じてタスクを完了するという印象的な能力により、大きな注目を集めている。しかし、既存のエージェントは個々のアクションの精度の向上に重点を置いており、しばしばエラーを検出して回復する効果的なメカニズムを欠いている。これらの欠点に対処するため,タスク完了効率を向上させるためにバックトラック機構を組み込んだ堅牢なフレームワークであるBacktrackAgentを提案する。 BacktrackAgentには、検証器、判定器、リフレクタコンポーネントがエラー検出とリカバリのためのモジュールとして含まれており、エージェントのパフォーマンスをさらに向上するために判断報酬が適用される。さらに,バックトラッキング機構に特化して設計されたトレーニングデータセットを開発し,アクション実行後の結果ページを考察する。実験結果から,BacktrackAgentはMobile3MベンチマークとAuto-UIベンチマークでタスク成功率とステップ精度の両方のパフォーマンス改善を実現していることがわかった。私たちのデータとコードは受け入れ次第リリースされます。

関連論文リスト

AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
MAPLE: A Mobile Agent with Persistent Finite State Machines for Structured Task Reasoning [46.18718721121415]
アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。 MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文参考訳（メタデータ） (2025-05-29T16:08:51Z)
WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。このアプローチは、複数のベンチマークで大幅に改善される。
論文参考訳（メタデータ） (2025-05-26T14:03:37Z)
Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents [19.348335171985152]
MLLMベースのGUIエージェントは、自然に複数の対話レベルのトリガーを公開します。我々はAgentGhostを紹介した。AgentGhostは、バックドア攻撃をリピートするための効果的でステルス的なフレームワークである。 AgentGhostは有効で汎用的であり、攻撃精度は3つの攻撃目標に対して99.7%に達する。
論文参考訳（メタデータ） (2025-05-20T14:29:18Z)
AppAgentX: Evolving GUI Agents as Proficient Smartphone Users [34.70342284525283]
本稿では,インテリジェンスと柔軟性を維持しつつ,操作効率を向上させるGUIエージェントの進化的フレームワークを提案する。本手法は,エージェントのタスク実行履歴を記録するメモリ機構を組み込んだものである。複数のベンチマークタスクに対する実験結果から,本手法は既存の手法よりも効率と精度が優れていることが示された。
論文参考訳（メタデータ） (2025-03-04T04:34:09Z)
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。 Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文参考訳（メタデータ） (2025-01-20T11:46:04Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文参考訳（メタデータ） (2024-03-28T08:54:40Z)
A Zero-Shot Language Agent for Computer Control with Structured Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文参考訳（メタデータ） (2023-10-12T21:53:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。