論文の概要: Multimodal Document Analytics for Banking Process Automation
- arxiv url: http://arxiv.org/abs/2307.11845v1
- Date: Fri, 21 Jul 2023 18:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 19:28:46.505439
- Title: Multimodal Document Analytics for Banking Process Automation
- Title(参考訳): 銀行業務自動化のためのマルチモーダル文書分析
- Authors: Christopher Gerling, Stefan Lessmann
- Abstract要約: 本研究は,銀行プロセスにおける高度な文書分析,特にマルチモーダルモデルの利用の可能性を理解することに焦点を当てる。
銀行部門における多言語・多モーダル・事前訓練モデルであるLayoutXLMのようなモデルの可能性について述べる。
トレーニングデータのわずか30%で75%以上のF1スコアが得られ,LayoutXLMの有効性が示された。
- 参考スコア(独自算出の注目度): 6.624726878647541
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In response to growing FinTech competition and the need for improved
operational efficiency, this research focuses on understanding the potential of
advanced document analytics, particularly using multimodal models, in banking
processes. We perform a comprehensive analysis of the diverse banking document
landscape, highlighting the opportunities for efficiency gains through
automation and advanced analytics techniques in the customer business. Building
on the rapidly evolving field of natural language processing (NLP), we
illustrate the potential of models such as LayoutXLM, a cross-lingual,
multimodal, pre-trained model, for analyzing diverse documents in the banking
sector. This model performs a text token classification on German company
register extracts with an overall F1 score performance of around 80\%. Our
empirical evidence confirms the critical role of layout information in
improving model performance and further underscores the benefits of integrating
image information. Interestingly, our study shows that over 75% F1 score can be
achieved with only 30% of the training data, demonstrating the efficiency of
LayoutXLM. Through addressing state-of-the-art document analysis frameworks,
our study aims to enhance process efficiency and demonstrate the real-world
applicability and benefits of multimodal models within banking.
- Abstract(参考訳): 本研究は,フィンテックの競争の激化と運用効率の向上の必要性に対して,銀行プロセスにおける高度な文書分析,特にマルチモーダルモデルの利用の可能性を理解することに焦点を当てる。
我々は、顧客ビジネスにおける自動化と高度な分析技術による効率向上の機会を強調し、多様な銀行文書の展望を包括的に分析する。
自然言語処理(NLP)の急速に発展する分野を基盤として,銀行部門における多言語・多モーダル・事前訓練モデルであるLayoutXLMのようなモデルの可能性について述べる。
このモデルでは、ドイツの企業レジスタ抽出データに対して、F1スコア全体の約80\%のパフォーマンスでテキストトークン分類を行う。
実験結果から,レイアウト情報のモデル性能向上に重要な役割が果たされ,画像情報統合のメリットがさらに強調された。
興味深いことに,本研究ではトレーニングデータのわずか30%で75%以上のF1スコアが達成でき,LayoutXLMの効率性が示された。
本研究は,最先端の文書分析フレームワークに取り組み,プロセス効率の向上と,銀行におけるマルチモーダルモデルの適用性とメリットの実証を目的とする。
関連論文リスト
- Multi-modal Retrieval Augmented Multi-modal Generation: A Benchmark, Evaluate Metrics and Strong Baselines [63.427721165404634]
本稿では,マルチモーダル検索拡張マルチモーダル生成(M$2$RAG)の興味深い課題について検討する。
このタスクでは,複数モーダルなWebページを閲覧し,テキストと画像が混在し,ユーザクエリを解決するためのマルチモーダルな応答を生成するための基礎モデルが必要である。
我々は,M$2$RAGタスクのベンチマークを構築し,既存の基礎モデルの能力を分析するために,テキストモーダルメトリクスとマルチモーダルメトリクスのセットを備える。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework [75.95430061891828]
851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。
効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-11-09T13:30:38Z) - MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。
任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。
提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文 参考訳(メタデータ) (2024-07-18T01:33:20Z) - LongFin: A Multimodal Document Understanding Model for Long Financial
Domain Documents [4.924255992661131]
最大4Kトークンをエンコード可能なマルチモーダル文書AIモデルであるLongFinを紹介する。
また、金融文書におけるいくつかの産業課題をカプセル化したLongFormsデータセットを提案する。
論文 参考訳(メタデータ) (2024-01-26T18:23:45Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - FETILDA: An Effective Framework For Fin-tuned Embeddings For Long
Financial Text Documents [14.269860621624394]
本稿では,長い文書をチャンクに分割し,事前学習したLMを用いてチャンクをベクトル表現に処理・集約するディープラーニングフレームワークを提案し,実装する。
我々は、米国銀行からの10-Kの公開開示レポートの収集と、米国企業が提出した別のレポートのデータセットについて、我々の枠組みを評価した。
論文 参考訳(メタデータ) (2022-06-14T16:14:14Z) - Data-Efficient Information Extraction from Form-Like Documents [14.567098292973075]
鍵となる課題は、フォームライクなドキュメントが、事実上無限に多くの方法でレイアウトできることです。
データ効率は、数百の異なるドキュメントタイプを扱うために、情報抽出システムがスケールできるようにするために重要である。
論文 参考訳(メタデータ) (2022-01-07T19:16:49Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - An Intelligent Hybrid Model for Identity Document Classification [0.0]
デジタル化は、生産性の向上、災害復旧、環境に優しいソリューションなどの機会とビジネスへの挑戦を提供する。
主な課題の1つは、顧客によって毎日アップロードされた多数のスキャンされたドキュメントを正確に分類することである。
画像分類の応用としてこの課題に対処する研究はほとんどない。
提案手法はPythonを用いて実装され、合成および実世界のデータセットで実験的に検証されている。
論文 参考訳(メタデータ) (2021-06-07T13:08:00Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。