論文の概要: Fine-Tuning Vision-Language Models for Markdown Conversion of Financial Tables in Malaysian Audited Financial Reports
- arxiv url: http://arxiv.org/abs/2508.05669v1
- Date: Mon, 04 Aug 2025 04:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.913867
- Title: Fine-Tuning Vision-Language Models for Markdown Conversion of Financial Tables in Malaysian Audited Financial Reports
- Title(参考訳): マレーシアの監査財務報告におけるファイナンシャルテーブルのマークダウン変換のための微調整ビジョンランゲージモデル
- Authors: Jin Khye Tan, En Jun Choong, Ethan Jeremiah Chitty, Yan Pheng Choo, John Hsin Yang Wong, Chern Eu Cheah,
- Abstract要約: 本稿ではQwen2.5-VL-7Bに基づく微調整視覚言語モデル(VLM)を提案する。
提案手法には,拡大した2,152枚の画像テキストペアをキュレートしたデータセットと,LoRAを用いた教師付き微調整戦略が含まれる。
基準に基づく評価では92.20%の精度と96.53%のTEDSスコアが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately extracting and representing the structure of tabular data from financial documents remains a critical challenge in document understanding, particularly for regulatory and analytical use cases. This study addresses the complexity of converting financial tables from Malaysian audited financial reports into Markdown format, a task complicated by rotated layouts, multi-level headers, and implicit structural cues. We propose a fine-tuned vision-language model (VLM), based on Qwen2.5-VL-7B, optimized for high-fidelity Markdown generation from document images. Our approach includes a curated dataset of 2,152 image-text pairs with augmentations and a supervised fine-tuning strategy using LoRA. To assess performance, we evaluated our model on 100 out-of-sample tables using a dual framework: a criteria-based LLM-as-a-judge for fine-grained accuracy and our novel Markdown Tree-Edit-Distance-based Similarity (TEDS) metric for holistic structural fidelity. Our model achieves a 92.20% overall accuracy on the criteria-based assessment and a 96.53% Markdown TEDS score. This performance significantly surpasses its Qwen2.5-VL-7B base model, larger-scale VLMs, and specialized reasoning-enabled models. Compared to these self-hosted alternatives, it also significantly reduces inference time. Furthermore, its accuracy exceeds that of widely used proprietary models such as OpenAI's GPT-4o and Gemini 2.5 Flash. These results demonstrate that domain-specific fine-tuning provides an effective and efficient method to bridge the gap between unstructured financial documents and downstream automation, rivalling much larger and more general models without their computational overhead.
- Abstract(参考訳): 文書から表データの構造を正確に抽出し、表現することは、特に規制や分析のユースケースにおいて、文書理解において重要な課題である。
本研究は,マレーシアの監査財務報告からマルコダウン形式への転換の複雑さに対処するものである。
文書画像から高忠実度マークダウン生成に最適化されたQwen2.5-VL-7Bに基づく微調整視覚言語モデル(VLM)を提案する。
提案手法には,拡大した2,152枚の画像テキストペアをキュレートしたデータセットと,LoRAを用いた教師付き微調整戦略が含まれる。
両フレームワークを用いた100個のアウト・オブ・サンプルテーブル上でのモデルの評価を行い, 精度を詳細に評価する基準ベースLCM-as-a-judgeと, 総体的構造忠実度に対するマークダウン木-編集-距離-類似度(TEDS)測定値について検討した。
基準に基づく評価では92.20%の総合精度と96.53%のMarkdown TEDSスコアが得られた。
この性能はQwen2.5-VL-7Bベースモデル、大規模VLM、特殊推論可能なモデルを大きく上回っている。
これらの自己ホスト型代替手段と比較して、推論時間を著しく短縮する。
さらに、OpenAIのGPT-4oやGemini 2.5 Flashなど、広く使われているプロプライエタリモデルよりも精度が高い。
これらの結果は、ドメイン固有の微調整が、非構造化の財務文書と下流の自動化のギャップを埋める効果的かつ効率的な方法であり、計算オーバーヘッドを伴わずに、より大きく、より一般的なモデルに匹敵することを示した。
関連論文リスト
- FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information [18.75906880569719]
大規模言語モデル(LLM)の構造化情報抽出とセマンティックアライメント機能を評価するために設計された最初のフルスコープテーブル対応ベンチマークであるFinTaggingを紹介する。
フラットなマルチクラス分類としてタグ付けを単純化し、物語テキストのみにフォーカスする以前のベンチマークとは異なり、FinTaggingはタグ付け問題を2つのサブタスクに分解する。
それは、事実を共同で抽出し、非構造化テキストと構造化テーブルの両方にわたる完全な10k以上の米国分類と整合させるモデルを必要とし、現実的できめ細かな評価を可能にする。
論文 参考訳(メタデータ) (2025-05-27T02:55:53Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Financial Fraud Detection Using Explainable AI and Stacking Ensemble Methods [0.6642919568083927]
本稿では,XGBoost,LightGBM,CatBoostという,勾配促進モデルの積み重ねアンサンブルを組み合わせた不正検出フレームワークを提案する。
XAI技術は、モデルの決定の透明性と解釈可能性を高めるために使用される。
論文 参考訳(メタデータ) (2025-05-15T07:53:02Z) - Protecting multimodal large language models against misleading visualizations [94.71976205962527]
この結果から,誤解を招く可視化に対する質問応答(QA)の精度が,ランダムなベースラインのレベルに平均で低下していることが示唆された。
本研究では,非ミスリーディングの精度を損なうことなく,誤解を招くビジュアライゼーションにおけるQA性能を改善するための最初の推論時間手法を提案する。
テーブルベースのQAと視覚化を再描画する2つの方法が有効であり、最大19.6ポイントの改善が期待できる。
論文 参考訳(メタデータ) (2025-02-27T20:22:34Z) - REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Parameter-Efficient Instruction Tuning of Large Language Models For Extreme Financial Numeral Labelling [29.84946857859386]
本稿では,財務文書に発生する関連する数字を対応するタグで自動的に注釈付けする問題について検討する。
本稿では,LoRAを用いたタスクに対するパラメータ効率のよい解を提案する。
提案するモデルであるFLAN-FinXCは、両方のデータセット上で新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-03T16:41:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。