Fugu-MT 論文翻訳(概要): LongFin: A Multimodal Document Understanding Model for Long Financial Domain Documents

論文の概要: LongFin: A Multimodal Document Understanding Model for Long Financial Domain Documents

arxiv url: http://arxiv.org/abs/2401.15050v1
Date: Fri, 26 Jan 2024 18:23:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 14:14:49.926330
Title: LongFin: A Multimodal Document Understanding Model for Long Financial Domain Documents
Title（参考訳）: longfin: 長期金融ドメイン文書のためのマルチモーダル文書理解モデル
Authors: Ahmed Masry and Amir Hajian
Abstract要約: 最大4Kトークンをエンコード可能なマルチモーダル文書AIモデルであるLongFinを紹介する。また、金融文書におけるいくつかの産業課題をカプセル化したLongFormsデータセットを提案する。
参考スコア（独自算出の注目度）: 4.924255992661131
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Document AI is a growing research field that focuses on the comprehension and extraction of information from scanned and digital documents to make everyday business operations more efficient. Numerous downstream tasks and datasets have been introduced to facilitate the training of AI models capable of parsing and extracting information from various document types such as receipts and scanned forms. Despite these advancements, both existing datasets and models fail to address critical challenges that arise in industrial contexts. Existing datasets primarily comprise short documents consisting of a single page, while existing models are constrained by a limited maximum length, often set at 512 tokens. Consequently, the practical application of these methods in financial services, where documents can span multiple pages, is severely impeded. To overcome these challenges, we introduce LongFin, a multimodal document AI model capable of encoding up to 4K tokens. We also propose the LongForms dataset, a comprehensive financial dataset that encapsulates several industrial challenges in financial documents. Through an extensive evaluation, we demonstrate the effectiveness of the LongFin model on the LongForms dataset, surpassing the performance of existing public models while maintaining comparable results on existing single-page benchmarks.
Abstract（参考訳）: Document AIは、日々の業務をより効率的にするために、スキャンされたドキュメントやデジタルドキュメントから情報の理解と抽出に焦点を当てた、成長する研究分野である。多数のダウンストリームタスクとデータセットが導入され、レシートやスキャンされたフォームなど、さまざまなドキュメントタイプから情報を解析、抽出できるAIモデルのトレーニングが容易になった。これらの進歩にもかかわらず、既存のデータセットとモデルの両方は、産業的な文脈で発生する重要な課題に対処できない。既存のデータセットは主に1ページからなる短いドキュメントで構成され、既存のモデルは最大長が制限され、しばしば512トークンに設定される。その結果、文書が複数のページにまたがる金融サービスにおけるこれらの手法の実践的応用は深刻な障害となる。これらの課題を克服するために,最大4Kトークンをエンコード可能なマルチモーダルドキュメントAIモデルであるLongFinを紹介した。また,金融書類にいくつかの産業課題をカプセル化した総合的な金融データセットであるlongforms datasetを提案する。本研究では,LongFormsデータセット上でのLongFinモデルの有効性を実証し,既存の1ページベンチマークで比較した結果を維持しながら,既存の公開モデルの性能を上回った。

関連論文リスト

BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。 BigDocs-Benchも導入しています。実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文参考訳（メタデータ） (2024-12-05T21:41:20Z)
M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework [75.95430061891828]
851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
論文参考訳（メタデータ） (2024-11-09T13:30:38Z)
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文参考訳（メタデータ） (2024-09-03T17:54:40Z)
SEC-QA: A Systematic Evaluation Corpus for Financial QA [12.279234447220155]
既存のデータセットは、多くの場合、サイズ、コンテキスト、実用的なアプリケーションとの関連性によって制約される。 2つの重要な特徴を持つ継続的データセット生成フレームワークであるSEC-QAを提案する。本稿では,複雑な情報検索と定量的推論パイプラインの実行能力を向上させるプログラム・オブ・思想に基づくQAシステムを提案する。
論文参考訳（メタデータ） (2024-06-20T15:12:41Z)
DocFinQA: A Long-Context Financial Reasoning Dataset [17.752081303855263]
長期の財務QAタスクを導入します。平均文脈長をFinQAの700語未満からDocFinQAの123k語に拡張する。検索に基づくQAパイプラインと長文言語モデルに関する広範な実験を行う。
論文参考訳（メタデータ） (2024-01-12T22:19:22Z)
On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。 FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-01T17:51:43Z)
Multimodal Document Analytics for Banking Process Automation [4.541582055558865]
本論文は,銀行業務における文書処理における多モデルモデルの有効性と効率に関する実証的証拠を提示する。日々の業務でこの可能性を解き放つための実践的なガイダンスを提供する。
論文参考訳（メタデータ） (2023-07-21T18:29:04Z)
DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文参考訳（メタデータ） (2023-06-15T08:21:15Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
FETILDA: An Effective Framework For Fin-tuned Embeddings For Long Financial Text Documents [14.269860621624394]
本稿では,長い文書をチャンクに分割し,事前学習したLMを用いてチャンクをベクトル表現に処理・集約するディープラーニングフレームワークを提案し,実装する。我々は、米国銀行からの10-Kの公開開示レポートの収集と、米国企業が提出した別のレポートのデータセットについて、我々の枠組みを評価した。
論文参考訳（メタデータ） (2022-06-14T16:14:14Z)
MuLD: The Multitask Long Document Benchmark [4.835289158553091]
我々は1万以上のトークンからなる文書のみからなる新しい長期文書ベンチマークを示す。文脈長の増大したモデルでは,課題の解決がより容易であることを示す。
論文参考訳（メタデータ） (2022-02-15T12:42:55Z)
SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文参考訳（メタデータ） (2020-05-01T17:30:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。