論文の概要: LongFin: A Multimodal Document Understanding Model for Long Financial
Domain Documents
- arxiv url: http://arxiv.org/abs/2401.15050v1
- Date: Fri, 26 Jan 2024 18:23:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 14:14:49.926330
- Title: LongFin: A Multimodal Document Understanding Model for Long Financial
Domain Documents
- Title(参考訳): longfin: 長期金融ドメイン文書のためのマルチモーダル文書理解モデル
- Authors: Ahmed Masry and Amir Hajian
- Abstract要約: 最大4Kトークンをエンコード可能なマルチモーダル文書AIモデルであるLongFinを紹介する。
また、金融文書におけるいくつかの産業課題をカプセル化したLongFormsデータセットを提案する。
- 参考スコア(独自算出の注目度): 4.924255992661131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document AI is a growing research field that focuses on the comprehension and
extraction of information from scanned and digital documents to make everyday
business operations more efficient. Numerous downstream tasks and datasets have
been introduced to facilitate the training of AI models capable of parsing and
extracting information from various document types such as receipts and scanned
forms. Despite these advancements, both existing datasets and models fail to
address critical challenges that arise in industrial contexts. Existing
datasets primarily comprise short documents consisting of a single page, while
existing models are constrained by a limited maximum length, often set at 512
tokens. Consequently, the practical application of these methods in financial
services, where documents can span multiple pages, is severely impeded. To
overcome these challenges, we introduce LongFin, a multimodal document AI model
capable of encoding up to 4K tokens. We also propose the LongForms dataset, a
comprehensive financial dataset that encapsulates several industrial challenges
in financial documents. Through an extensive evaluation, we demonstrate the
effectiveness of the LongFin model on the LongForms dataset, surpassing the
performance of existing public models while maintaining comparable results on
existing single-page benchmarks.
- Abstract(参考訳): Document AIは、日々の業務をより効率的にするために、スキャンされたドキュメントやデジタルドキュメントから情報の理解と抽出に焦点を当てた、成長する研究分野である。
多数のダウンストリームタスクとデータセットが導入され、レシートやスキャンされたフォームなど、さまざまなドキュメントタイプから情報を解析、抽出できるAIモデルのトレーニングが容易になった。
これらの進歩にもかかわらず、既存のデータセットとモデルの両方は、産業的な文脈で発生する重要な課題に対処できない。
既存のデータセットは主に1ページからなる短いドキュメントで構成され、既存のモデルは最大長が制限され、しばしば512トークンに設定される。
その結果、文書が複数のページにまたがる金融サービスにおけるこれらの手法の実践的応用は深刻な障害となる。
これらの課題を克服するために,最大4Kトークンをエンコード可能なマルチモーダルドキュメントAIモデルであるLongFinを紹介した。
また,金融書類にいくつかの産業課題をカプセル化した総合的な金融データセットであるlongforms datasetを提案する。
本研究では,LongFormsデータセット上でのLongFinモデルの有効性を実証し,既存の1ページベンチマークで比較した結果を維持しながら,既存の公開モデルの性能を上回った。
関連論文リスト
- DocFinQA: A Long-Context Financial Reasoning Dataset [17.752081303855263]
長期の財務QAタスクを導入します。
平均文脈長をFinQAの700語未満からDocFinQAの123k語に拡張する。
検索に基づくQAパイプラインと長文言語モデルに関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-01-12T22:19:22Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Multimodal Document Analytics for Banking Process Automation [4.541582055558865]
本論文は,銀行業務における文書処理における多モデルモデルの有効性と効率に関する実証的証拠を提示する。
日々の業務でこの可能性を解き放つための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-07-21T18:29:04Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [69.03538086844516]
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。
次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Understanding Performance of Long-Document Ranking Models through
Comprehensive Evaluation and Leaderboarding [11.25399488981492]
我々は2つの一般的なコレクション(MS MARCO 文書と Robust04)を用いて、長い文書のランク付けのための13の最新のモデルを評価する。
単純なFirstPベースライン(典型的トランスフォーマーモデルの入力シーケンス制約を満たすために文書をトランケートする)は非常に効果的である。
我々は,ロバスト04とMS MARCOの文書が広く使用されているにもかかわらず,長期文書モデルのベンチマークには特に有用ではないと主張している。
論文 参考訳(メタデータ) (2022-07-04T08:54:43Z) - FETILDA: An Effective Framework For Fin-tuned Embeddings For Long
Financial Text Documents [14.269860621624394]
本稿では,長い文書をチャンクに分割し,事前学習したLMを用いてチャンクをベクトル表現に処理・集約するディープラーニングフレームワークを提案し,実装する。
我々は、米国銀行からの10-Kの公開開示レポートの収集と、米国企業が提出した別のレポートのデータセットについて、我々の枠組みを評価した。
論文 参考訳(メタデータ) (2022-06-14T16:14:14Z) - MuLD: The Multitask Long Document Benchmark [4.835289158553091]
我々は1万以上のトークンからなる文書のみからなる新しい長期文書ベンチマークを示す。
文脈長の増大したモデルでは,課題の解決がより容易であることを示す。
論文 参考訳(メタデータ) (2022-02-15T12:42:55Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。