論文の概要: LMRPA: Large Language Model-Driven Efficient Robotic Process Automation for OCR
- arxiv url: http://arxiv.org/abs/2412.18063v1
- Date: Tue, 24 Dec 2024 00:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:24.712638
- Title: LMRPA: Large Language Model-Driven Efficient Robotic Process Automation for OCR
- Title(参考訳): LMRPA: OCRのための大規模言語モデル駆動型ロボットプロセス自動化
- Authors: Osama Hosam Abdellaif, Abdelrahman Nader, Ali Hamdi,
- Abstract要約: 本稿では,LMRPA(Large Model-Driven Robotic Process Automation Model)を紹介する。
光学文字認識(OCR)タスクの効率と速度を大幅に向上させるように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces LMRPA, a novel Large Model-Driven Robotic Process Automation (RPA) model designed to greatly improve the efficiency and speed of Optical Character Recognition (OCR) tasks. Traditional RPA platforms often suffer from performance bottlenecks when handling high-volume repetitive processes like OCR, leading to a less efficient and more time-consuming process. LMRPA allows the integration of Large Language Models (LLMs) to improve the accuracy and readability of extracted text, overcoming the challenges posed by ambiguous characters and complex text structures.Extensive benchmarks were conducted comparing LMRPA to leading RPA platforms, including UiPath and Automation Anywhere, using OCR engines like Tesseract and DocTR. The results are that LMRPA achieves superior performance, cutting the processing times by up to 52\%. For instance, in Batch 2 of the Tesseract OCR task, LMRPA completed the process in 9.8 seconds, where UiPath finished in 18.1 seconds and Automation Anywhere finished in 18.7 seconds. Similar improvements were observed with DocTR, where LMRPA outperformed other automation tools conducting the same process by completing tasks in 12.7 seconds, while competitors took over 20 seconds to do the same. These findings highlight the potential of LMRPA to revolutionize OCR-driven automation processes, offering a more efficient and effective alternative solution to the existing state-of-the-art RPA models.
- Abstract(参考訳): 本稿では,光学式文字認識(OCR)タスクの効率と速度を大幅に向上させるために,LMRPA(Large Model-Driven Robotic Process Automation)モデルを提案する。
従来のRPAプラットフォームは、OCRのような高ボリュームの反復プロセスを扱う際に、パフォーマンスのボトルネックに悩まされることが多い。
LMRPAは、LMRPAを、UiPathやAutomance Anywhereを含む主要なRPAプラットフォームと比較し、TesseractやDocTRのようなOCRエンジンを用いて、LMRPAと比較し、曖昧な文字や複雑なテキスト構造によって生じる課題を克服し、抽出されたテキストの精度と可読性を改善するために、LLMsの統合を可能にする。
その結果,LMRPAは処理時間を最大52倍に短縮し,優れた性能が得られることがわかった。
例えば、Tesseract OCRタスクのバッチ2では、LMRPAが9.8秒でプロセスを完了し、UiPathは18.1秒で、Automance Anywhereは18.7秒で完了した。
DocTRでは同様の改善が見られ、LMRPAはタスクを12.7秒で完了させることで同じプロセスを実行する他の自動化ツールよりも優れ、競合は20秒以上かかる。
これらの知見は、OCR駆動自動化プロセスに革命をもたらすLMRPAの可能性を強調し、既存の最先端のRPAモデルに対して、より効率的で効果的な代替ソリューションを提供する。
関連論文リスト
- ERPA: Efficient RPA Model Integrating OCR and LLMs for Intelligent Document Processing [0.0]
本稿では,移民におけるOCRタスクのIDデータ抽出と最適化を目的とした,革新的なロボットプロセス自動化(RPA)モデルであるERPAを提案する。
ベンチマークの結果、ERPAは処理時間を最大94%削減し、IDデータの抽出をわずか9.94秒で完了している。
論文 参考訳(メタデータ) (2024-12-24T09:44:43Z) - LMV-RPA: Large Model Voting-based Robotic Process Automation [0.0]
本稿では,OCRを向上する大規模モデル投票型ロボットプロセス自動化システムであるLMV-RPAを紹介する。
LMV-RPAは、Paddle OCR、Tesseract OCR、Easy OCR、DocTRなどのOCRエンジンから出力を統合する。
OCRタスクの99%の精度を実現し、ベースラインモデルの94%を突破し、処理時間を80%削減した。
論文 参考訳(メタデータ) (2024-12-23T20:28:22Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Optimizing Structured Data Processing through Robotic Process Automation [2.3997896447030653]
本研究では、構造化データ抽出における RPA の利用について検討し、手作業による処理よりもその優位性を評価する。
人為的なタスクとRPAソフトウェアボットが実行するタスクを比較することにより、請求書からのデータ抽出の効率性と精度を評価する。
本研究は,ロボットが作業の完了を手作業よりもはるかに少ない時間で行うことにより,RPAが達成した顕著な効率向上を浮き彫りにした。
論文 参考訳(メタデータ) (2024-08-27T05:53:02Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。
本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Automatic Engineering of Long Prompts [79.66066613717703]
大規模言語モデル(LLM)は、複雑なオープンドメインタスクを解く際、顕著な能力を示した。
本稿では,自動ロングプロンプトエンジニアリングのためのグリージーアルゴリズムと遺伝的アルゴリズムの性能について検討する。
提案アルゴリズムは,Big Bench Hardの8つのタスクにおいて,平均9.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-11-16T07:42:46Z) - Robotic Process Automation Using Process Mining $\unicode{x2013}$ A
Systematic Literature Review [0.7252027234425332]
本稿では, プロセスマイニングの適用性を評価し, RPAの実装を加速し, 改善することを目的とする。
ソフトウェアロボットで自動化可能なプロセスを理解するために,PM技術を用いた手法の体系的検討を行った。
この領域における出版物の数は着実に増加しており、特に2022年にはPMとRPAの併用への関心が高まっている。
論文 参考訳(メタデータ) (2022-04-02T03:13:17Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。