論文の概要: OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents
- arxiv url: http://arxiv.org/abs/2503.16465v1
- Date: Wed, 26 Feb 2025 12:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-30 08:57:22.752296
- Title: OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents
- Title(参考訳): OS-Kairos:MLLMによるGUIエージェントのアダプティブインタラクション
- Authors: Pengzhou Cheng, Zheng Wu, Zongru Wu, Aston Zhang, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: 本稿では,各インタラクションステップにおける信頼度を予測可能な適応GUIエージェントOS-Kairosを紹介する。
我々はOS-Kairosが複雑なシナリオを特徴とするキュレートデータセットの既存モデルを大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 37.92783542037974
- License:
- Abstract: Autonomous graphical user interface (GUI) agents powered by multimodal large language models have shown great promise. However, a critical yet underexplored issue persists: over-execution, where the agent executes tasks in a fully autonomous way, without adequate assessment of its action confidence to compromise an adaptive human-agent collaboration. This poses substantial risks in complex scenarios, such as those involving ambiguous user instructions, unexpected interruptions, and environmental hijacks. To address the issue, we introduce OS-Kairos, an adaptive GUI agent capable of predicting confidence levels at each interaction step and efficiently deciding whether to act autonomously or seek human intervention. OS-Kairos is developed through two key mechanisms: (i) collaborative probing that annotates confidence scores at each interaction step; (ii) confidence-driven interaction that leverages these confidence scores to elicit the ability of adaptive interaction. Experimental results show that OS-Kairos substantially outperforms existing models on our curated dataset featuring complex scenarios, as well as on established benchmarks such as AITZ and Meta-GUI, with 24.59\%$\sim$87.29\% improvements in task success rate. OS-Kairos facilitates an adaptive human-agent collaboration, prioritizing effectiveness, generality, scalability, and efficiency for real-world GUI interaction. The dataset and codes are available at https://github.com/Wuzheng02/OS-Kairos.
- Abstract(参考訳): マルチモーダルな大規模言語モデルを利用したGUIエージェントは、非常に有望である。
エージェントが完全に自律的な方法でタスクを実行する場合、そのアクションの信頼性を適切に評価することなく、適応的な人間とエージェントのコラボレーションを妥協する。
これは、曖昧なユーザー指示、予期せぬ中断、環境のハイジャックなど、複雑なシナリオに重大なリスクをもたらす。
この問題に対処するために,各インタラクションステップにおける信頼度を予測し,自律的に行動するか,あるいは人間の介入を求めるかを効率的に決定できる適応GUIエージェントであるOS-Kairosを紹介した。
OS-Kairosは2つの主要なメカニズムによって開発されている。
一 相互行為の段落ごとに信頼度を記入する共同調査
(II)これらの信頼スコアを活用して適応的相互作用の能力を引き出す信頼駆動インタラクション。
実験の結果,OS-Kairosは複雑なシナリオと,AITZやMeta-GUIなどの既存のベンチマークにより,タスク成功率を24.59\%$\sim$87.29\%改善した。
OS-Kairosは、現実のGUIインタラクションにおける効率性、汎用性、スケーラビリティ、効率性を優先し、適応的なヒューマンエージェントコラボレーションを促進する。
データセットとコードはhttps://github.com/Wuzheng02/OS-Kairosで公開されている。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - STAMP: Scalable Task And Model-agnostic Collaborative Perception [24.890993164334766]
STAMPは、異種エージェントのためのタスクおよびモデルに依存しない協調認識パイプラインである。
計算オーバーヘッドを最小限に抑え、スケーラビリティを高め、モデルのセキュリティを維持する。
第一種フレームワークとしてSTAMPは,スケーラブルでセキュアなモビリティシステムの研究を,レベル5の自律性に向けて進めることを目指している。
論文 参考訳(メタデータ) (2025-01-24T16:27:28Z) - Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions [25.464036307823974]
SocialEgoNetはグラフベースのフレームワークで、階層的な学習アプローチを通じてタスク依存を利用する。
SocialEgoNetは、高い推論速度のためにビデオ入力のわずか1秒から抽出されたボディスケルトン(顔、手、体からキーポイント)を使用する。
評価のために、新しいクラスラベルとバウンディングボックスアノテーションとの既存のエゴセントリックなヒューマンエージェントインタラクションを強化する。
論文 参考訳(メタデータ) (2024-12-21T16:54:28Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions [12.074590482085831]
責任レンズを介して安全なマルチエージェントインタラクションを規定する要因を定式化する。
本稿では,制御障壁関数と微分可能最適化に基づくデータ駆動モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T20:20:41Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。
このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。
また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T10:53:29Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。