論文の概要: SmartFlow: Robotic Process Automation using LLMs
- arxiv url: http://arxiv.org/abs/2405.12842v1
- Date: Tue, 21 May 2024 14:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 12:20:58.564801
- Title: SmartFlow: Robotic Process Automation using LLMs
- Title(参考訳): SmartFlow: LLMを用いたロボットプロセス自動化
- Authors: Arushi Jain, Shubham Paliwal, Monika Sharma, Lovekesh Vig, Gautam Shroff,
- Abstract要約: SmartFlowは、トレーニング済みの大規模言語モデル(LLM)とディープラーニングベースの画像理解を使用する、AIベースのRPAシステムである。
ユーザインタフェースの変更や入力データのバリエーションなど,人間の介入を必要とせずに,新たなシナリオに適応することができる。
SmartFlowはフォームフィリング、カスタマーサービス、請求処理、バックオフィス操作など、幅広いビジネスプロセスを自動化することができる。
- 参考スコア(独自算出の注目度): 16.065318294682687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic Process Automation (RPA) systems face challenges in handling complex processes and diverse screen layouts that require advanced human-like decision-making capabilities. These systems typically rely on pixel-level encoding through drag-and-drop or automation frameworks such as Selenium to create navigation workflows, rather than visual understanding of screen elements. In this context, we present SmartFlow, an AI-based RPA system that uses pre-trained large language models (LLMs) coupled with deep-learning based image understanding. Our system can adapt to new scenarios, including changes in the user interface and variations in input data, without the need for human intervention. SmartFlow uses computer vision and natural language processing to perceive visible elements on the graphical user interface (GUI) and convert them into a textual representation. This information is then utilized by LLMs to generate a sequence of actions that are executed by a scripting engine to complete an assigned task. To assess the effectiveness of SmartFlow, we have developed a dataset that includes a set of generic enterprise applications with diverse layouts, which we are releasing for research use. Our evaluations on this dataset demonstrate that SmartFlow exhibits robustness across different layouts and applications. SmartFlow can automate a wide range of business processes such as form filling, customer service, invoice processing, and back-office operations. SmartFlow can thus assist organizations in enhancing productivity by automating an even larger fraction of screen-based workflows. The demo-video and dataset are available at https://smartflow-4c5a0a.webflow.io/.
- Abstract(参考訳): ロボットプロセス自動化(RPA)システムは、高度な人間的な意思決定能力を必要とする複雑なプロセスと多様なスクリーンレイアウトを扱う上で、課題に直面している。
これらのシステムは通常、画面要素の視覚的理解ではなく、Seleniumのようなドラッグアンドドロップや自動化フレームワークを通じてピクセルレベルのエンコーディングを頼りにしている。
本稿では,事前学習された大規模言語モデル(LLM)とディープラーニングに基づく画像理解を組み合わせたAIベースのRPAシステムであるSmartFlowを提案する。
ユーザインタフェースの変更や入力データのバリエーションなど,人間の介入を必要とせずに,新たなシナリオに適応することができる。
SmartFlowはコンピュータビジョンと自然言語処理を使用して、グラフィカルユーザインタフェース(GUI)上の可視要素を認識し、それらをテキスト表現に変換する。
この情報はLLMによって利用され、スクリプティングエンジンによって実行される一連のアクションを生成して、割り当てられたタスクを完了させる。
SmartFlowの有効性を評価するために、さまざまなレイアウトを持つ汎用エンタープライズアプリケーションのセットを含むデータセットを開発しました。
このデータセットに対する評価は、SmartFlowがさまざまなレイアウトやアプリケーションにまたがって堅牢性を示すことを示している。
SmartFlowはフォームフィリング、カスタマーサービス、請求処理、バックオフィス操作など、幅広いビジネスプロセスを自動化することができる。
これにより、SmartFlowは、スクリーンベースのワークフローの大部分を自動化することによって、生産性の向上を支援することができる。
デモビデオとデータセットはhttps://smartflow-4c5a0a.webflow.io/で公開されている。
関連論文リスト
- WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding [52.35520385083425]
FlowLearnデータセットは、フローチャートの理解を強化するために設計されたリソースである。
科学的サブセットは、科学文献から得られた3,858のフローチャートを含んでいる。
シミュレーションされたサブセットには、カスタマイズ可能なスクリプトを使用して作成された10,000のフローチャートが含まれている。
論文 参考訳(メタデータ) (2024-07-06T20:58:51Z) - AutoFlow: Automated Workflow Generation for Large Language Model Agents [39.72700864347576]
大規模言語モデル(LLM)は、複雑な自然言語を理解する上で大きな進歩を見せている。
LLMエージェントが与えられたタスクを解決するための効果的で信頼性の高い手順に従うようにするために、手動で設計されるのが通常である。
複雑なタスクを解決するためにエージェントを自動的に生成するフレームワークであるAutoFlowを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:05:02Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - AutoFlow: Learning a Better Training Set for Optical Flow [62.40293188964933]
AutoFlowは、光学フローのトレーニングデータをレンダリングする手法である。
AutoFlowはPWC-NetとRAFTの両方の事前トレーニングにおいて最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-04-29T17:55:23Z) - TensorFlow with user friendly Graphical Framework for object detection
API [0.0]
Graphical Framework(TF-GraF)は、ディープラーニングデータフローのためのオープンソースのフレームワークであり、音声分析、自然言語処理、コンピュータビジョンのアプリケーションインターフェース(API)を含んでいる。
TF-GraFは、サーバ側のユーザアカウントに従って独立した仮想環境を提供し、クライアント側のCLIなしでのデータ前処理、トレーニング、評価を実行する。
論文 参考訳(メタデータ) (2020-06-11T13:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。