論文の概要: AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation
- arxiv url: http://arxiv.org/abs/2403.10171v2
- Date: Mon, 27 May 2024 05:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 06:26:32.281502
- Title: AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation
- Title(参考訳): AUTONODE:認知的GUI自動化のための神経グラフ型自己学習エンジン
- Authors: Arkajit Datta, Tushar Verma, Rajat Chawla, Mukunda N. S, Ishaan Bhola,
- Abstract要約: オンラインニューログラフィック操作と深部探索によるユーザインタフェースの自律的変換
我々のエンジンはエージェントが複雑に理解し実装し、非並列な効率で動的Web環境に適応することを可能にする。
AUTONODEの汎用性と有効性は一連の実験を通じて実証され、様々なWebベースのタスクを管理する能力を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent advancements within the domain of Large Language Models (LLMs), there has been a notable emergence of agents capable of addressing Robotic Process Automation (RPA) challenges through enhanced cognitive capabilities and sophisticated reasoning. This development heralds a new era of scalability and human-like adaptability in goal attainment. In this context, we introduce AUTONODE (Autonomous User-interface Transformation through Online Neuro-graphic Operations and Deep Exploration). AUTONODE employs advanced neuro-graphical techniques to facilitate autonomous navigation and task execution on web interfaces, thereby obviating the necessity for predefined scripts or manual intervention. Our engine empowers agents to comprehend and implement complex workflows, adapting to dynamic web environments with unparalleled efficiency. Our methodology synergizes cognitive functionalities with robotic automation, endowing AUTONODE with the ability to learn from experience. We have integrated an exploratory module, DoRA (Discovery and mapping Operation for graph Retrieval Agent), which is instrumental in constructing a knowledge graph that the engine utilizes to optimize its actions and achieve objectives with minimal supervision. The versatility and efficacy of AUTONODE are demonstrated through a series of experiments, highlighting its proficiency in managing a diverse array of web-based tasks, ranging from data extraction to transaction processing.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の領域内では,認知能力の向上と高度な推論を通じて,ロボットプロセス自動化(RPA)の課題に対処できるエージェントが出現している。
この開発は、ゴール達成におけるスケーラビリティと人間ライクな適応性の新しい時代を物語っている。
本稿では,AUTONODE(Online Neuro-graphic Operations and Deep Exploration)を紹介する。
AUTONODEは、Webインターフェース上での自律的なナビゲーションとタスク実行を容易にするために、高度な神経グラフィック技術を採用しており、事前に定義されたスクリプトや手動による介入の必要性を回避している。
我々のエンジンは、エージェントが複雑なワークフローを理解し実装し、非並列効率で動的Web環境に適応できるようにします。
本手法は,AUTONODEに経験から学習する能力を持たせることにより,認知機能とロボットの自動化を連携させる。
我々は,探索モジュールであるDoRA(Recovery and mapping Operation for graph Retrieval Agent)を統合した。これは,エンジンが動作を最適化し,最小限の監視で目的を達成するための知識グラフの構築に有効である。
AUTONODEの汎用性と有効性は一連の実験を通じて実証され、データ抽出からトランザクション処理まで、さまざまなWebベースのタスクを管理する能力を強調している。
関連論文リスト
- Imperative Learning: A Self-supervised Neural-Symbolic Learning Framework for Robot Autonomy [31.818923556912495]
我々は,ロボット自律のための自己教師型ニューラルシンボリック(NeSy)計算フレームワーク,インペラティブラーニング(IL)を導入する。
ILを2段階最適化(BLO)として定式化し、3つのモジュール間の相互学習を可能にする。
ILはロボットの自律性を大幅に向上させ、多様な領域にわたるさらなる研究を促進することを期待している。
論文 参考訳(メタデータ) (2024-06-23T12:02:17Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - A Central Motor System Inspired Pre-training Reinforcement Learning for Robotic Control [7.227887302864789]
本稿では,CMS-PRLを提案する。
まず、基本的なモータ報酬と相互情報報酬を組み合わせた融合報酬機構を導入する。
第2に,基底神経節の運動プログラムにインスパイアされたスキルエンコーディング手法を設計し,リッチかつ継続的なスキル指導を提供する。
第3に,運動能力の制御のためのスキルアクティビティ機能を提案する。
論文 参考訳(メタデータ) (2023-11-14T00:49:12Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z) - Deep Active Learning for Computer Vision: Past and Future [50.19394935978135]
AIモデルの開発に欠かせない役割にもかかわらず、アクティブラーニングの研究は他の研究の方向性ほど集中的ではない。
データ自動化の課題に対処し、自動化された機械学習システムに対処することによって、アクティブな学習はAI技術の民主化を促進する。
論文 参考訳(メタデータ) (2022-11-27T13:07:14Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Modular approach to data preprocessing in ALOHA and application to a
smart industry use case [0.0]
データ前処理と変換パイプラインをサポートするために、ALOHAツールフローに統合されたモジュラーアプローチに対処する。
提案手法の有効性を示すために,キーワードスポッティングのユースケースに関する実験結果を示す。
論文 参考訳(メタデータ) (2021-02-02T06:48:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。