論文の概要: Memory-Augmented Agent Training for Business Document Understanding
- arxiv url: http://arxiv.org/abs/2412.15274v1
- Date: Tue, 17 Dec 2024 18:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 19:51:06.322078
- Title: Memory-Augmented Agent Training for Business Document Understanding
- Title(参考訳): ビジネス文書理解のためのメモリ拡張エージェントトレーニング
- Authors: Jiale Liu, Yifan Zeng, Malte Højmark-Bertelsen, Marie Normann Gadeberg, Huazheng Wang, Qingyun Wu,
- Abstract要約: LLMエージェントがドメインの専門知識を段階的に構築できる新しいパラダイムであるMatrix(Reasoning and Iterative eXploration)を導入する。
私たちは世界最大の物流企業と協力し、ユニバーサルビジネス言語形式の請求書のデータセットを作成します。
実験の結果、マトリックスは単一LSMを30.3%、バニラを35.2%向上させる。
- 参考スコア(独自算出の注目度): 16.143076522786803
- License:
- Abstract: Traditional enterprises face significant challenges in processing business documents, where tasks like extracting transport references from invoices remain largely manual despite their crucial role in logistics operations. While Large Language Models offer potential automation, their direct application to specialized business domains often yields unsatisfactory results. We introduce Matrix (Memory-Augmented agent Training through Reasoning and Iterative eXploration), a novel paradigm that enables LLM agents to progressively build domain expertise through experience-driven memory refinement and iterative learning. To validate this approach, we collaborate with one of the world's largest logistics companies to create a dataset of Universal Business Language format invoice documents, focusing on the task of transport reference extraction. Experiments demonstrate that Matrix outperforms prompting a single LLM by 30.3%, vanilla LLM agent by 35.2%. We further analyze the metrics of the optimized systems and observe that the agent system requires less API calls, fewer costs and can analyze longer documents on average. Our methods establish a new approach to transform general-purpose LLMs into specialized business tools through systematic memory enhancement in document processing tasks.
- Abstract(参考訳): 従来の企業では、物流業務において重要な役割を担っているにも関わらず、請求書から輸送基準を抽出するといったタスクが手作業のままであるような、ビジネス文書の処理において重大な課題に直面している。
大きな言語モデルは、潜在的な自動化を提供するが、専門のビジネスドメインへの直接的な適用は、しばしば満足のいく結果をもたらす。
本稿では,LLMエージェントが経験駆動型メモリリファインメントと反復学習を通じて,ドメインの専門知識を段階的に構築することを可能にする新しいパラダイムであるMatrix(Reasoning and Iterative eXploration)を紹介する。
このアプローチを検証するため,我々は世界最大級の物流企業と共同でユニバーサルビジネス言語形式の請求書のデータセットを作成する。
実験の結果、マトリックスは単一LSMを30.3%、バニラを35.2%向上させる。
さらに、最適化されたシステムのメトリクスを分析し、エージェントシステムがAPI呼び出しを減らし、コストを減らし、平均して長いドキュメントを分析可能であることを観察する。
本手法は,汎用LLMを文書処理タスクの体系的メモリ拡張を通じて,特殊なビジネスツールに変換する手法を確立している。
関連論文リスト
- Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Leveraging Long-Context Large Language Models for Multi-Document Understanding and Summarization in Enterprise Applications [1.1682259692399921]
LLM(Long-context Large Language Model)は、広範囲の接続を把握し、結合的な要約を提供し、様々な業界領域に適応することができる。
ケーススタディでは、効率と精度の両方が顕著に向上している。
論文 参考訳(メタデータ) (2024-09-27T05:29:31Z) - Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5 [0.0]
本稿では,LLM ChatGPTから文書理解知識をFLAN-T5に抽出する手法を提案する。
本研究は, 実世界のシナリオにおける高度言語モデルの展開を促進する蒸留技術の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-09-17T15:37:56Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Using Large Language Models to Understand Telecom Standards [35.343893798039765]
大きな言語モデル(LLM)は、関連する情報へのより高速なアクセスを提供する。
質問応答(QA)アシスタントとして使用される最先端のLCMの性能を評価する。
その結果,LLMはテレコム技術文書の信頼できる参照ツールとして利用できることがわかった。
論文 参考訳(メタデータ) (2024-04-02T09:54:51Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and
Character Design [11.913409501633616]
textscFinMemは、金融上の意思決定のために考案された新しいLLMベースのエージェントフレームワークである。
textscFinMemのメモリモジュールは、人間のトレーダーの認知構造と密接に一致し、堅牢な解釈性を提供する。
このフレームワークは、エージェントが専門知識を自己開発し、新しい投資方法にアジャイルに反応し、取引決定を継続的に洗練することを可能にする。
論文 参考訳(メタデータ) (2023-11-23T00:24:40Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - Multimodal Document Analytics for Banking Process Automation [4.541582055558865]
本論文は,銀行業務における文書処理における多モデルモデルの有効性と効率に関する実証的証拠を提示する。
日々の業務でこの可能性を解き放つための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-07-21T18:29:04Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。