論文の概要: LMV-RPA: Large Model Voting-based Robotic Process Automation
- arxiv url: http://arxiv.org/abs/2412.17965v1
- Date: Mon, 23 Dec 2024 20:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:43.932252
- Title: LMV-RPA: Large Model Voting-based Robotic Process Automation
- Title(参考訳): LMV-RPA:大規模投票に基づくロボットプロセス自動化
- Authors: Osama Abdellatif, Ahmed Ayman, Ali Hamdi,
- Abstract要約: 本稿では,OCRを向上する大規模モデル投票型ロボットプロセス自動化システムであるLMV-RPAを紹介する。
LMV-RPAは、Paddle OCR、Tesseract OCR、Easy OCR、DocTRなどのOCRエンジンから出力を統合する。
OCRタスクの99%の精度を実現し、ベースラインモデルの94%を突破し、処理時間を80%削減した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Automating high-volume unstructured data processing is essential for operational efficiency. Optical Character Recognition (OCR) is critical but often struggles with accuracy and efficiency in complex layouts and ambiguous text. These challenges are especially pronounced in large-scale tasks requiring both speed and precision. This paper introduces LMV-RPA, a Large Model Voting-based Robotic Process Automation system to enhance OCR workflows. LMV-RPA integrates outputs from OCR engines such as Paddle OCR, Tesseract OCR, Easy OCR, and DocTR with Large Language Models (LLMs) like LLaMA 3 and Gemini-1.5-pro. Using a majority voting mechanism, it processes OCR outputs into structured JSON formats, improving accuracy, particularly in complex layouts. The multi-phase pipeline processes text extracted by OCR engines through LLMs, combining results to ensure the most accurate outputs. LMV-RPA achieves 99 percent accuracy in OCR tasks, surpassing baseline models with 94 percent, while reducing processing time by 80 percent. Benchmark evaluations confirm its scalability and demonstrate that LMV-RPA offers a faster, more reliable, and efficient solution for automating large-scale document processing tasks.
- Abstract(参考訳): 高ボリュームな非構造化データ処理を自動化することは、運用効率に不可欠である。
光文字認識(OCR)は重要であるが、複雑なレイアウトや曖昧なテキストの精度と効率に苦慮することが多い。
これらの課題は特に、スピードと精度の両方を必要とする大規模タスクにおいて顕著である。
本稿では,OCRワークフローを向上する大規模モデル投票型ロボットプロセス自動化システムであるLMV-RPAを紹介する。
LMV-RPAは、Paddle OCR、Tesseract OCR、Easy OCR、DocTRといったOCRエンジンからの出力をLLaMA 3やGemini-1.5-proのような大規模言語モデル(LLM)と統合している。
過半数の投票機構を使用して、OCR出力を構造化JSONフォーマットに処理し、特に複雑なレイアウトにおいて精度を向上させる。
マルチフェーズパイプラインは、OLMを通してOCRエンジンによって抽出されたテキストを処理し、結果を組み合わせ、最も正確な出力を保証する。
LMV-RPAはOCRタスクの99%の精度を実現し、ベースラインモデルの94%を上回り、処理時間を80%削減した。
LMV-RPAは大規模文書処理タスクを自動化するために,より高速で信頼性が高く,効率的なソリューションを提供する。
関連論文リスト
- RoseRAG: Robust Retrieval-augmented Generation with Small-scale LLMs via Margin-aware Preference Optimization [53.63439735067081]
大規模言語モデル(LLM)は目覚ましい性能を達成したが、高い計算コストとレイテンシに直面している。
Retrieval-augmented Generation (RAG) は、外部知識を統合するのに役立つが、不完全な検索は、SLMを誤解させるノイズを引き起こす可能性がある。
我々は、Margin-aware Preference Optimizationを通じて、SLMのための堅牢なRAGフレームワークであるRoseRAGを提案する。
論文 参考訳(メタデータ) (2025-02-16T04:56:53Z) - ERPA: Efficient RPA Model Integrating OCR and LLMs for Intelligent Document Processing [0.0]
本稿では,移民におけるOCRタスクのIDデータ抽出と最適化を目的とした,革新的なロボットプロセス自動化(RPA)モデルであるERPAを提案する。
ベンチマークの結果、ERPAは処理時間を最大94%削減し、IDデータの抽出をわずか9.94秒で完了している。
論文 参考訳(メタデータ) (2024-12-24T09:44:43Z) - LMRPA: Large Language Model-Driven Efficient Robotic Process Automation for OCR [0.0]
本稿では,LMRPA(Large Model-Driven Robotic Process Automation Model)を紹介する。
光学文字認識(OCR)タスクの効率と速度を大幅に向上させるように設計されている。
論文 参考訳(メタデータ) (2024-12-24T00:21:36Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。
より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:57:39Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System [9.376162696601238]
我々は、より良いテキスト検知器とより良いテキスト認識器を訓練するためのトリックの袋を紹介します。
実データを用いた実験では、PP-OCRv2の精度は同じ推論コストでPP-OCRよりも7%高いことが示されている。
論文 参考訳(メタデータ) (2021-09-07T15:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。