論文の概要: DocOS: Towards Proactive Document-Guided Actions in GUI Agents
- arxiv url: http://arxiv.org/abs/2605.18048v1
- Date: Mon, 18 May 2026 08:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.189178
- Title: DocOS: Towards Proactive Document-Guided Actions in GUI Agents
- Title(参考訳): DocOS: GUIエージェントにおけるプロアクティブなドキュメントガイドアクションを目指して
- Authors: Jingjing Liu, Ziye Huang, Zihao Cheng, Zeming Liu, Jiahong Wu, Yuhang Guo, Kehai Chen, Yunhong Wang, Haifeng Wang,
- Abstract要約: textbfDocOSは、完全にインタラクティブな環境で文書誘導問題解決を評価するために設計されたベンチマークである。
実験の結果、エージェントはプロアクティブ検索中に関連情報を確実に見つけるのに苦労し、検索した指示を忠実に正確な行動に移すのに失敗することが判明した。
- 参考スコア(独自算出の注目度): 54.27655693145045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Graphical User Interface (GUI) agents have shown promising performance in automated device interaction, they primarily depend on static parametric knowledge from pre-training or instruction tuning. This reliance fundamentally limits their ability to handle long-tailed tasks that require explicit procedural knowledge absent from model parameters, often forcing agents to resort to inefficient and brittle trial-and-error exploration. To mitigate this limitation, we introduce \textbf{Proactive Document-Guided Action} for GUI agents in dynamic, open-web environments, a novel paradigm that mirrors human problem-solving by enabling agents to autonomously search for relevant documentation to resolve long-tailed tasks. To evaluate agents' capability in this paradigm, we propose \textbf{DocOS}, a benchmark designed to assess document-guided problem solving in fully interactive environments. DocOS requires agents to autonomously navigate a web browser, locate relevant online documentation, comprehend procedural instructions, and faithfully ground them into executable GUI actions. Extensive experiments reveal that progress is strictly constrained by dual bottlenecks: agents struggle to reliably locate relevant information during proactive search and frequently fail to faithfully ground retrieved instructions into precise actions, pointing toward document-guided interaction as a crucial pathway for enabling self-evolving GUI agents in dynamic environments.
- Abstract(参考訳): Graphical User Interface(GUI)エージェントは、自動デバイスのインタラクションにおいて有望なパフォーマンスを示しているが、それらは主に事前トレーニングや命令チューニングからの静的パラメトリック知識に依存している。
この依存は、モデルパラメータから外れた明確な手続き的知識を必要とする長いタスクを扱う能力を根本的に制限し、しばしばエージェントは非効率で脆弱な試行錯誤に頼らざるを得ない。
この制限を緩和するために、動的でオープンなウェブ環境におけるGUIエージェントに対して \textbf{Proactive Document-Guided Action} を導入する。
このパラダイムでエージェントの能力を評価するために,完全にインタラクティブな環境で文書誘導問題解決を行うためのベンチマークである「textbf{DocOS}」を提案する。
DocOSでは、エージェントがWebブラウザを自律的にナビゲートし、関連するオンラインドキュメントを特定し、手続き的な指示を理解し、それらを実行可能なGUIアクションに忠実に構築する必要がある。
エージェントは、プロアクティブ検索中に関連情報を確実に見つけるのに苦労し、しばしば、動的環境における自己進化GUIエージェントを実現するための重要な経路として文書誘導インタラクションを指して、検索した命令を忠実に正確な行動に導くのに失敗する。
関連論文リスト
- The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Instruction Agent: Enhancing Agent with Expert Demonstration [12.67489098612846]
グラフィカルユーザインタフェース(GUI)エージェントは急速に進歩しているが、新しいUI要素、長い水平動作、パーソナライズされた軌跡を含む複雑なタスクに苦戦している。
そこで本研究では,GUIエージェントであるインストラクションエージェントを導入し,このようなタスクを専門的なデモンストレーションで解決し,それ以外は困難なタスクの完了を可能にする。
1つのデモンストレーションが与えられた場合、エージェントはステップバイステップの指示を抽出し、ユーザが意図した軌道を厳密に追従することで実行します。
論文 参考訳(メタデータ) (2025-09-08T18:00:12Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。