論文の概要: OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning
- arxiv url: http://arxiv.org/abs/2410.18963v1
- Date: Thu, 24 Oct 2024 17:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:22.344025
- Title: OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning
- Title(参考訳): OSCAR: 状態認識推論と再計画によるオペレーティングシステム制御
- Authors: Xiaoqiang Wang, Bang Liu,
- Abstract要約: 我々はOSCAR: 状態認識推論と再計画によるオペレーティングシステム制御について述べる。
OSCARは、様々なデスクトップおよびモバイルアプリケーションと自律的にナビゲートし対話するように設計された汎用エージェントである。
我々は,デスクトップおよびモバイルプラットフォームにまたがる多様なベンチマーク実験を通じて,OSCARの有効性を実証する。
- 参考スコア(独自算出の注目度): 25.832796584256794
- License:
- Abstract: Large language models (LLMs) and large multimodal models (LMMs) have shown great potential in automating complex tasks like web browsing and gaming. However, their ability to generalize across diverse applications remains limited, hindering broader utility. To address this challenge, we present OSCAR: Operating System Control via state-Aware reasoning and Re-planning. OSCAR is a generalist agent designed to autonomously navigate and interact with various desktop and mobile applications through standardized controls, such as mouse and keyboard inputs, while processing screen images to fulfill user commands. OSCAR translates human instructions into executable Python code, enabling precise control over graphical user interfaces (GUIs). To enhance stability and adaptability, OSCAR operates as a state machine, equipped with error-handling mechanisms and dynamic task re-planning, allowing it to efficiently adjust to real-time feedback and exceptions. We demonstrate OSCAR's effectiveness through extensive experiments on diverse benchmarks across desktop and mobile platforms, where it transforms complex workflows into simple natural language commands, significantly boosting user productivity. Our code will be open-source upon publication.
- Abstract(参考訳): 大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は、Webブラウジングやゲームのような複雑なタスクを自動化する大きな可能性を示している。
しかし、多種多様なアプリケーションにまたがる一般化能力は依然として限られており、より広範な実用性を妨げている。
この課題に対処するため、OSCAR: 状態認識推論と再計画によるオペレーティングシステム制御を提案する。
OSCARは、マウスやキーボード入力などの標準化されたコントロールを通じて、様々なデスクトップやモバイルアプリケーションと自律的に操作し、ユーザコマンドを満たすために画面イメージを処理するように設計された汎用エージェントである。
OSCARは、人間の命令を実行可能なPythonコードに変換し、グラフィカルユーザインタフェース(GUI)の正確な制御を可能にする。
安定性と適応性を高めるため、OSCARは状態機械として機能し、エラー処理機構と動的タスク再計画を備え、リアルタイムのフィードバックや例外に効率的に適応できる。
我々はOSCARの有効性を、デスクトップとモバイルプラットフォームにまたがる多様なベンチマークの実験を通じて実証し、複雑なワークフローを単純な自然言語コマンドに変換することで、ユーザの生産性を大幅に向上させる。
私たちのコードは公開後オープンソースになります。
関連論文リスト
- Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。
我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。
本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文 参考訳(メタデータ) (2024-09-23T18:06:32Z) - KiloBot: A Programming Language for Deploying Perception-Guided Industrial Manipulators at Scale [6.804432396982314]
産業用ロボットは、カメラと知覚パイプラインで非構造環境を処理したいと考えています。
知覚誘導型産業応用にはオンライン行動計画が必要である。
私たちのDSLは主に、従来のプログラミング言語でコーディング経験のないマシンオペレータによって使われています。
論文 参考訳(メタデータ) (2024-09-05T11:42:08Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。