論文の概要: Instruction Agent: Enhancing Agent with Expert Demonstration
- arxiv url: http://arxiv.org/abs/2509.07098v1
- Date: Mon, 08 Sep 2025 18:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.067841
- Title: Instruction Agent: Enhancing Agent with Expert Demonstration
- Title(参考訳): 指導エージェント:専門家デモによるエージェントの強化
- Authors: Yinheng Li, Hailey Hultquist, Justin Wagle, Kazuhito Koishida,
- Abstract要約: グラフィカルユーザインタフェース(GUI)エージェントは急速に進歩しているが、新しいUI要素、長い水平動作、パーソナライズされた軌跡を含む複雑なタスクに苦戦している。
そこで本研究では,GUIエージェントであるインストラクションエージェントを導入し,このようなタスクを専門的なデモンストレーションで解決し,それ以外は困難なタスクの完了を可能にする。
1つのデモンストレーションが与えられた場合、エージェントはステップバイステップの指示を抽出し、ユーザが意図した軌道を厳密に追従することで実行します。
- 参考スコア(独自算出の注目度): 12.67489098612846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical user interface (GUI) agents have advanced rapidly but still struggle with complex tasks involving novel UI elements, long-horizon actions, and personalized trajectories. In this work, we introduce Instruction Agent, a GUI agent that leverages expert demonstrations to solve such tasks, enabling completion of otherwise difficult workflows. Given a single demonstration, the agent extracts step-by-step instructions and executes them by strictly following the trajectory intended by the user, which avoids making mistakes during execution. The agent leverages the verifier and backtracker modules further to improve robustness. Both modules are critical to understand the current outcome from each action and handle unexpected interruptions(such as pop-up windows) during execution. Our experiments show that Instruction Agent achieves a 60% success rate on a set of tasks in OSWorld that all top-ranked agents failed to complete. The Instruction Agent offers a practical and extensible framework, bridging the gap between current GUI agents and reliable real-world GUI task automation.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは急速に進歩しているが、新しいUI要素、長い水平動作、パーソナライズされた軌跡を含む複雑なタスクに苦戦している。
本稿では,GUIエージェントであるインストラクションエージェントについて紹介する。このエージェントは,専門家による実演を利用して,そのような課題を解決し,それ以外は困難なワークフローの完了を可能にする。
1つのデモンストレーションが与えられた場合、エージェントはステップバイステップの指示を抽出し、ユーザが意図した軌道を厳密に追従することで実行します。
エージェントは検証器とバックトラッカーモジュールをさらに活用して堅牢性を向上させる。
どちらのモジュールも、各アクションの現在の結果を理解し、実行中に予期しない割り込み(ポップアップウィンドウなど)を処理するために重要である。
実験の結果,トップランクのエージェントがすべて完了しなかったOSWorldのタスクセットにおいて,インストラクションエージェントが60%の成功率を達成することがわかった。
Instruction Agentは実用的で拡張可能なフレームワークを提供し、現在のGUIエージェントと信頼できる現実世界のGUIタスク自動化のギャップを埋める。
関連論文リスト
- CoAct-1: Computer-using Agents with Coding as Actions [94.99657662893338]
CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。
我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
論文 参考訳(メタデータ) (2025-08-05T21:33:36Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。