Fugu-MT 論文翻訳(概要): AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation

論文の概要: AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation

arxiv url: http://arxiv.org/abs/2403.10171v1
Date: Fri, 15 Mar 2024 10:27:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 17:40:24.176511
Title: AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation
Title（参考訳）: AUTONODE:認知的GUI自動化のための神経グラフ型自己学習エンジン
Authors: Arkajit Datta, Tushar Verma, Rajat Chawla,
Abstract要約: オンラインニューログラフィック操作と深部探索によるユーザインタフェースの自律的変換我々のエンジンはエージェントが複雑に理解し実装し、非並列な効率で動的Web環境に適応することを可能にする。 AUTONODEの汎用性と有効性は一連の実験を通じて実証され、様々なWebベースのタスクを管理する能力を強調している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent advancements within the domain of Large Language Models (LLMs), there has been a notable emergence of agents capable of addressing Robotic Process Automation (RPA) challenges through enhanced cognitive capabilities and sophisticated reasoning. This development heralds a new era of scalability and human-like adaptability in goal attainment. In this context, we introduce AUTONODE (Autonomous User-interface Transformation through Online Neuro-graphic Operations and Deep Exploration). AUTONODE employs advanced neuro-graphical techniques to facilitate autonomous navigation and task execution on web interfaces, thereby obviating the necessity for predefined scripts or manual intervention. Our engine empowers agents to comprehend and implement complex workflows, adapting to dynamic web environments with unparalleled efficiency. Our methodology synergizes cognitive functionalities with robotic automation, endowing AUTONODE with the ability to learn from experience. We have integrated an exploratory module, DoRA (Discovery and mapping Operation for graph Retrieval Agent), which is instrumental in constructing a knowledge graph that the engine utilizes to optimize its actions and achieve objectives with minimal supervision. The versatility and efficacy of AUTONODE are demonstrated through a series of experiments, highlighting its proficiency in managing a diverse array of web-based tasks, ranging from data extraction to transaction processing.
Abstract（参考訳）: 近年,Large Language Models (LLMs) の領域内では,認知能力の向上と高度な推論を通じて,ロボットプロセス自動化(RPA)の課題に対処できるエージェントが出現している。この開発は、ゴール達成におけるスケーラビリティと人間ライクな適応性の新しい時代を物語っている。本稿では,AUTONODE(Online Neuro-graphic Operations and Deep Exploration)を紹介する。 AUTONODEは、Webインターフェース上での自律的なナビゲーションとタスク実行を容易にするために、高度な神経グラフィック技術を採用しており、事前に定義されたスクリプトや手動による介入の必要性を回避している。我々のエンジンは、エージェントが複雑なワークフローを理解し実装し、非並列効率で動的Web環境に適応できるようにします。本手法は,AUTONODEに経験から学習する能力を持たせることにより,認知機能とロボットの自動化を連携させる。我々は,探索モジュールであるDoRA(Recovery and mapping Operation for graph Retrieval Agent)を統合した。これは,エンジンが動作を最適化し,最小限の監視で目的を達成するための知識グラフの構築に有効である。 AUTONODEの汎用性と有効性は一連の実験を通じて実証され、データ抽出からトランザクション処理まで、さまざまなWebベースのタスクを管理する能力を強調している。

関連論文リスト

Agentic Web: Weaving the Next Web with AI Agents [109.13815627467514]
大規模言語モデル(LLM)を活用したAIエージェントの出現は、エージェントWebに対する重要な転換点である。このパラダイムでは、エージェントが直接対話して、ユーザに代わって複雑なタスクを計画、コーディネート、実行します。本稿では,エージェントWebの理解と構築のための構造化フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-28T17:58:12Z)
WebSynthesis: World-Model-Guided MCTS for Efficient WebUI-Trajectory Synthesis [34.998277998052444]
本稿では,軌道合成と学習のための新しいフレームワークであるWebSynthesisを提案する。本稿では,WebSynthesis を用いて訓練したエージェントが,大規模実世界のデータに対してトレーニングしたモデルに匹敵する,あるいはそれ以上の性能を達成することを示す。
論文参考訳（メタデータ） (2025-07-06T12:31:10Z)
State and Memory is All You Need for Robust and Reliable AI Agents [29.259008600842517]
大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。しかし、複雑な現実世界の科学への応用は、記憶、計画、ツール統合の課題によって制限されている。本稿では、LLMベースのエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現することができるモジュール型エージェントフレームワークであるSciBORGを紹介する。
論文参考訳（メタデータ） (2025-06-30T02:02:35Z)
Neural Brain: A Neuroscience-inspired Framework for Embodied Agents [58.58177409853298]
大規模な言語モデルのような現在のAIシステムは、いまだに解体され続けており、物理的に世界と関わりが持てない。この課題の核心は、人間のような適応性を持つエンボディエージェントを駆動するために設計された中枢知能システムであるNeural Brain(ニューラル・ブレイン)の概念である。本稿では,2つの基本的な課題に対処する,エンボディエージェントのニューラルブレインの統一的枠組みを提案する。
論文参考訳（メタデータ） (2025-05-12T15:05:34Z)
Task-Oriented Connectivity for Networked Robotics with Generative AI and Semantic Communications [2.54886412206415]
本稿では,汎用AI(GenAI)エージェントと目標指向のセマンティックコミュニケーション(SemCom)をセマンティック・アウェア・ネットワークの下で統合する,ロボットのための新しいコワーキング・フレームワークを提案する。このエージェント駆動のパラダイムは、新たなレベルの自律性とインテリジェンスを可能にし、ネットワーク化されたロボットの複雑なタスクを、人間の介入を最小限に抑えて実行可能にする。
論文参考訳（メタデータ） (2025-03-09T20:56:04Z)
Neuro-LIFT: A Neuromorphic, LLM-based Interactive Framework for Autonomous Drone FlighT at the Edge [9.461346539158475]
本稿では,Parrot Bebop Quaotor2上に実装されたリアルタイムニューロモルフィックナビゲーションフレームワークNeuro-LIFTを提案する。我々のフレームワークは、人間の発話を高レベルな計画コマンドに変換し、イベントベースのニューロモルフィックビジョンと物理駆動計画を用いて自律的に実行される。本フレームワークは,動的な環境下での航行,障害物回避,人間の指示にリアルタイムで適応する能力を示す。
論文参考訳（メタデータ） (2025-01-31T16:17:03Z)
Imperative Learning: A Self-supervised Neural-Symbolic Learning Framework for Robot Autonomy [31.818923556912495]
我々は,ロボット自律のための自己教師型ニューラルシンボリック(NeSy)計算フレームワーク,インペラティブラーニング(IL)を導入する。 ILを2段階最適化(BLO)として定式化し、3つのモジュール間の相互学習を可能にする。 ILはロボットの自律性を大幅に向上させ、多様な領域にわたるさらなる研究を促進することを期待している。
論文参考訳（メタデータ） (2024-06-23T12:02:17Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文参考訳（メタデータ） (2024-03-30T10:54:59Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文参考訳（メタデータ） (2024-02-08T18:58:02Z)
A Central Motor System Inspired Pre-training Reinforcement Learning for Robotic Control [7.227887302864789]
本稿では,CMS-PRLを提案する。まず、基本的なモータ報酬と相互情報報酬を組み合わせた融合報酬機構を導入する。第2に,基底神経節の運動プログラムにインスパイアされたスキルエンコーディング手法を設計し,リッチかつ継続的なスキル指導を提供する。第3に,運動能力の制御のためのスキルアクティビティ機能を提案する。
論文参考訳（メタデータ） (2023-11-14T00:49:12Z)
Incremental procedural and sensorimotor learning in cognitive humanoid robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文参考訳（メタデータ） (2023-04-30T22:51:31Z)
Deep Active Learning for Computer Vision: Past and Future [50.19394935978135]
AIモデルの開発に欠かせない役割にもかかわらず、アクティブラーニングの研究は他の研究の方向性ほど集中的ではない。データ自動化の課題に対処し、自動化された機械学習システムに対処することによって、アクティブな学習はAI技術の民主化を促進する。
論文参考訳（メタデータ） (2022-11-27T13:07:14Z)
Backprop-Free Reinforcement Learning with Active Neural Generative Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文参考訳（メタデータ） (2021-07-10T19:02:27Z)
Modular approach to data preprocessing in ALOHA and application to a smart industry use case [0.0]
データ前処理と変換パイプラインをサポートするために、ALOHAツールフローに統合されたモジュラーアプローチに対処する。提案手法の有効性を示すために,キーワードスポッティングのユースケースに関する実験結果を示す。
論文参考訳（メタデータ） (2021-02-02T06:48:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。