論文の概要: VeriOS: Query-Driven Proactive Human-Agent-GUI Interaction for Trustworthy OS Agents
- arxiv url: http://arxiv.org/abs/2509.07553v1
- Date: Tue, 09 Sep 2025 09:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.256663
- Title: VeriOS: Query-Driven Proactive Human-Agent-GUI Interaction for Trustworthy OS Agents
- Title(参考訳): VeriOS: 信頼できるOSエージェントのためのクエリ駆動のProactive Human-Agent-GUIインタラクション
- Authors: Zheng Wu, Heyuan Huang, Xingyu Lou, Xiangmou Qu, Pengzhou Cheng, Zongru Wu, Weiwen Liu, Weinan Zhang, Jun Wang, Zhaoxiang Wang, Zhuosheng Zhang,
- Abstract要約: We introduced VeriOS-Agent, a trustworthy OS agent training with a two-stage learning paradigm。
VeriOS-Agentは、最先端技術に対する信頼できないシナリオにおいて、平均的なステップワイドの成功率を20.64%改善することを示す。
- 参考スコア(独自算出の注目度): 39.3943822850841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid progress of multimodal large language models, operating system (OS) agents become increasingly capable of automating tasks through on-device graphical user interfaces (GUIs). However, most existing OS agents are designed for idealized settings, whereas real-world environments often present untrustworthy conditions. To mitigate risks of over-execution in such scenarios, we propose a query-driven human-agent-GUI interaction framework that enables OS agents to decide when to query humans for more reliable task completion. Built upon this framework, we introduce VeriOS-Agent, a trustworthy OS agent trained with a two-stage learning paradigm that falicitate the decoupling and utilization of meta-knowledge. Concretely, VeriOS-Agent autonomously executes actions in normal conditions while proactively querying humans in untrustworthy scenarios. Experiments show that VeriOS-Agent improves the average step-wise success rate by 20.64\% in untrustworthy scenarios over the state-of-the-art, without compromising normal performance. Analysis highlights VeriOS-Agent's rationality, generalizability, and scalability. The codes, datasets and models are available at https://github.com/Wuzheng02/VeriOS.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの急速な進歩により、オペレーティングシステム(OS)エージェントは、デバイス上でのグラフィカルユーザインタフェース(GUI)を介してタスクを自動化できるようになる。
しかし、既存のOSエージェントのほとんどは理想的な設定のために設計されている。
このようなシナリオにおける過剰実行のリスクを軽減するため、我々は、より信頼性の高いタスク完了のために、OSエージェントがいつ人間に問い合わせるかを判断できるクエリ駆動型ヒューマンエージェント-GUIインタラクションフレームワークを提案する。
このフレームワーク上に構築されたVeriOS-Agentは、2段階の学習パラダイムで訓練された信頼性の高いOSエージェントであり、メタ知識の疎結合と利用を促進する。
具体的には、VeriOS-Agentは、不信なシナリオで積極的に人間に問い合わせながら、正常な状態で自律的にアクションを実行する。
実験により、VeriOS-Agentは、通常のパフォーマンスを損なうことなく、最先端技術に対する信頼できないシナリオにおいて、平均的なステップワイド成功率を20.64\%向上することが示された。
分析では、VeriOS-Agentの合理性、一般化可能性、スケーラビリティを強調している。
コード、データセット、モデルはhttps://github.com/Wuzheng02/VeriOSで入手できる。
関連論文リスト
- OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。
マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。
本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文 参考訳(メタデータ) (2025-08-06T14:33:45Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。