Fugu-MT 論文翻訳(概要): Multimodal Document Analytics for Banking Process Automation

論文の概要: Multimodal Document Analytics for Banking Process Automation

arxiv url: http://arxiv.org/abs/2307.11845v2
Date: Sun, 26 Nov 2023 08:57:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 15:22:22.841987
Title: Multimodal Document Analytics for Banking Process Automation
Title（参考訳）: 銀行業務自動化のためのマルチモーダル文書分析
Authors: Christopher Gerling, Stefan Lessmann
Abstract要約: 本論文は,銀行業務における文書処理における多モデルモデルの有効性と効率に関する実証的証拠を提示する。日々の業務でこの可能性を解き放つための実践的なガイダンスを提供する。
参考スコア（独自算出の注目度）: 4.541582055558865
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Traditional banks face increasing competition from FinTechs in the rapidly evolving financial ecosystem. Raising operational efficiency is vital to address this challenge. Our study aims to improve the efficiency of document-intensive business processes in banking. To that end, we first review the landscape of business documents in the retail segment. Banking documents often contain text, layout, and visuals, suggesting that document analytics and process automation require more than plain natural language processing (NLP). To verify this and assess the incremental value of visual cues when processing business documents, we compare a recently proposed multimodal model called LayoutXLM to powerful text classifiers (e.g., BERT) and large language models (e.g., GPT) in a case study related to processing company register extracts. The results confirm that incorporating layout information in a model substantially increases its performance. Interestingly, we also observed that more than 75% of the best model performance (in terms of the F1 score) can be achieved with as little as 30% of the training data. This shows that the demand for data labeled data to set up a multi-modal model can be moderate, which simplifies real-world applications of multimodal document analytics. Our study also sheds light on more specific practices in the scope of calibrating a multimodal banking document classifier, including the need for fine-tuning. In sum, the paper contributes original empirical evidence on the effectiveness and efficiency of multi-model models for document processing in the banking business and offers practical guidance on how to unlock this potential in day-to-day operations.
Abstract（参考訳）: 従来の銀行は急速に発展する金融エコシステムにおいてフィンテックとの競争が激化している。この課題に対処するには,運用効率の向上が不可欠だ。本研究の目的は,銀行における文書集約型ビジネスプロセスの効率化である。そこで我々はまず,小売部門における業務文書の状況について概観する。バンキング文書はテキスト、レイアウト、視覚を含むことが多く、文書分析とプロセスの自動化には通常の自然言語処理(NLP)以上のものが必要であることを示唆している。これを検証し、ビジネス文書処理時の視覚的手がかりの漸進的価値を評価するために、最近提案されたLayoutXLMと呼ばれるマルチモーダルモデルと強力なテキスト分類器(例えばBERT)と大規模言語モデル(例えばGPT)を比較した。その結果,レイアウト情報をモデルに組み込むことで性能が大幅に向上することが確認された。興味深いことに、最高のモデルパフォーマンス(f1スコアの観点から)の75%以上が、トレーニングデータの30%以下で達成可能であることもわかりました。これは、マルチモーダルモデルを構築するためのラベル付きデータの要求が適度であることを示し、マルチモーダル文書分析の現実的な応用を単純化する。また,マルチモーダルバンキング文書分類器の校正範囲において,微調整の必要性を含め,より具体的な実践について考察した。本論文は,銀行業務における文書処理におけるマルチモデルモデルの有効性と効率に関する実証的証拠を提示し,この可能性を日々の業務において解き放つための実践的なガイダンスを提供する。

関連論文リスト

Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-07T22:15:22Z)
Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文参考訳（メタデータ） (2025-07-11T07:25:55Z)
Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance [54.25184684077833]
構造化されていない財務文書から定量的な洞察を抽出する,効率的でスケーラブルな手法を提案する。提案システムは,emphExtraction AgentとemphText-to-Agentの2つの特殊エージェントから構成される。
論文参考訳（メタデータ） (2025-05-25T15:45:46Z)
Memory-Augmented Agent Training for Business Document Understanding [16.143076522786803]
LLMエージェントがドメインの専門知識を段階的に構築できる新しいパラダイムであるMatrix(Reasoning and Iterative eXploration)を導入する。私たちは世界最大の物流企業と協力し、ユニバーサルビジネス言語形式の請求書のデータセットを作成します。実験の結果、マトリックスは単一LSMを30.3%、バニラを35.2%向上させる。
論文参考訳（メタデータ） (2024-12-17T18:35:04Z)
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文参考訳（メタデータ） (2024-12-14T06:24:55Z)
Multi-modal Retrieval Augmented Multi-modal Generation: A Benchmark, Evaluate Metrics and Strong Baselines [63.427721165404634]
本稿では,マルチモーダル検索拡張マルチモーダル生成(M$2$RAG)の興味深い課題について検討する。このタスクでは,複数モーダルなWebページを閲覧し,テキストと画像が混在し,ユーザクエリを解決するためのマルチモーダルな応答を生成するための基礎モデルが必要である。我々は,M$2$RAGタスクのベンチマークを構築し,既存の基礎モデルの能力を分析するために,テキストモーダルメトリクスとマルチモーダルメトリクスのセットを備える。
論文参考訳（メタデータ） (2024-11-25T13:20:19Z)
M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework [75.95430061891828]
851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
論文参考訳（メタデータ） (2024-11-09T13:30:38Z)
MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文参考訳（メタデータ） (2024-07-18T01:33:20Z)
LongFin: A Multimodal Document Understanding Model for Long Financial Domain Documents [4.924255992661131]
最大4Kトークンをエンコード可能なマルチモーダル文書AIモデルであるLongFinを紹介する。また、金融文書におけるいくつかの産業課題をカプセル化したLongFormsデータセットを提案する。
論文参考訳（メタデータ） (2024-01-26T18:23:45Z)
On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。 FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-01T17:51:43Z)
Peek Across: Improving Multi-Document Modeling via Cross-Document Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文参考訳（メタデータ） (2023-05-24T17:48:40Z)
FETILDA: An Effective Framework For Fin-tuned Embeddings For Long Financial Text Documents [14.269860621624394]
本稿では,長い文書をチャンクに分割し,事前学習したLMを用いてチャンクをベクトル表現に処理・集約するディープラーニングフレームワークを提案し,実装する。我々は、米国銀行からの10-Kの公開開示レポートの収集と、米国企業が提出した別のレポートのデータセットについて、我々の枠組みを評価した。
論文参考訳（メタデータ） (2022-06-14T16:14:14Z)
Data-Efficient Information Extraction from Form-Like Documents [14.567098292973075]
鍵となる課題は、フォームライクなドキュメントが、事実上無限に多くの方法でレイアウトできることです。データ効率は、数百の異なるドキュメントタイプを扱うために、情報抽出システムがスケールできるようにするために重要である。
論文参考訳（メタデータ） (2022-01-07T19:16:49Z)
Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処するマルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文参考訳（メタデータ） (2021-10-21T05:38:45Z)
An Intelligent Hybrid Model for Identity Document Classification [0.0]
デジタル化は、生産性の向上、災害復旧、環境に優しいソリューションなどの機会とビジネスへの挑戦を提供する。主な課題の1つは、顧客によって毎日アップロードされた多数のスキャンされたドキュメントを正確に分類することである。画像分類の応用としてこの課題に対処する研究はほとんどない。提案手法はPythonを用いて実装され、合成および実世界のデータセットで実験的に検証されている。
論文参考訳（メタデータ） (2021-06-07T13:08:00Z)
Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。本稿では154K文書から622Kサンプルのデータセットを作成する。
論文参考訳（メタデータ） (2020-02-02T03:54:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。