論文の概要: FCMBench: A Comprehensive Financial Credit Multimodal Benchmark for Real-world Applications
- arxiv url: http://arxiv.org/abs/2601.00150v2
- Date: Tue, 06 Jan 2026 08:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.365639
- Title: FCMBench: A Comprehensive Financial Credit Multimodal Benchmark for Real-world Applications
- Title(参考訳): FCMBench: 実世界のアプリケーションのための総合的な金融クレジットマルチモーダルベンチマーク
- Authors: Yehui Yang, Dalu Yang, Wenshuo Zhou, Fangxin Shang, Yifan Liu, Jie Ren, Haojun Fei, Qing Yang, Yanwu Xu, Tao Chen,
- Abstract要約: FCMBenchは、現実世界のアプリケーションのための大規模金融クレジットマルチモーダルベンチマークである。
18のコア証明書タイプ、4,043のプライバシ準拠イメージ、8,446のQAサンプルを含んでいる。
現代の視覚言語モデルにおいて、性能格差と堅牢性を効果的に識別することができる。
- 参考スコア(独自算出の注目度): 13.160743735226824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As multimodal AI becomes widely used for credit risk assessment and document review, a domain-specific benchmark is urgently needed that (1) reflects documents and workflows specific to financial credit applications, (2) includes credit-specific understanding and real-world robustness, and (3) preserves privacy compliance without sacrificing practical utility. Here, we introduce FCMBench-V1.0 -- a large-scale financial credit multimodal benchmark for real-world applications, covering 18 core certificate types, with 4,043 privacy-compliant images and 8,446 QA samples. The FCMBench evaluation framework consists of three dimensions: Perception, Reasoning, and Robustness, including 3 foundational perception tasks, 4 credit-specific reasoning tasks that require decision-oriented understanding of visual evidence, and 10 real-world acquisition artifact types for robustness stress testing. To reconcile compliance with realism, we construct all samples via a closed synthesis-capture pipeline: we manually synthesize document templates with virtual content and capture scenario-aware images in-house. This design also mitigates pre-training data leakage by avoiding web-sourced or publicly released images. FCMBench can effectively discriminate performance disparities and robustness across modern vision-language models. Extensive experiments were conducted on 23 state-of-the-art vision-language models (VLMs) from 14 top AI companies and research institutes. Among them, Gemini 3 Pro achieves the best F1(\%) score as a commercial model (64.61), Qwen3-VL-235B achieves the best score as an open-source baseline (57.27), and our financial credit-specific model, Qfin-VL-Instruct, achieves the top overall score (64.92). Robustness evaluations show that even top-performing models suffer noticeable performance drops under acquisition artifacts.
- Abstract(参考訳): 信用リスク評価や文書レビューにマルチモーダルAIが広く使われるようになると、(1)金融信用アプリケーション固有の文書やワークフローを反映し、(2)信用固有の理解と現実の堅牢性を含み、(3)実用性を犠牲にすることなくプライバシコンプライアンスを維持するという、ドメイン固有のベンチマークが緊急に必要となる。
ここでは、FCMBench-V1.0について紹介する。FCMBench-V1.0は、実世界のアプリケーションのための大規模金融信用マルチモーダルベンチマークであり、18のコア証明書タイプをカバーし、4,043のプライバシ準拠の画像と8,446のQAサンプルを持つ。
FCMBenchの評価フレームワークは、知覚、推論、ロバストネスの3つの側面で構成されており、3つの基本的な認識タスク、視覚的証拠の意思決定指向の理解を必要とする4つの信用特化推論タスク、堅牢性テストのための10の現実世界の取得アーティファクトタイプを含んでいる。
仮想コンテンツを用いて文書テンプレートを手動で合成し,シナリオ対応の画像を社内でキャプチャする。
この設計はまた、Webソースまたは公開画像を避けることにより、事前トレーニングデータの漏洩を軽減している。
FCMBenchは、現代の視覚言語モデル間で性能格差と堅牢性を効果的に識別することができる。
トップ14のAI企業と研究機関の23の最先端のビジョン言語モデル(VLM)に対して、大規模な実験が行われた。
このうち、Gemini 3 Proは商用モデルとしてF1(\%)のスコア(64.61)、Qwen3-VL-235Bはオープンソースベースラインとしてベストスコア(57.27)、当社の金融信用特化モデルであるQfin-VL-Instructは最高スコア(64.92)を達成している。
ロバストネス評価は、トップパフォーマンスモデルでさえ、取得アーティファクトの下で顕著なパフォーマンス低下を被っていることを示している。
関連論文リスト
- DrawingBench: Evaluating Spatial Reasoning and UI Interaction Capabilities of Large Language Models through Mouse-Based Drawing Tasks [10.977990951788422]
DrawingBenchはエージェントLLMの信頼性を評価するための検証フレームワークである。
我々のフレームワークは、20のカテゴリに250の多様なプロンプトと4つの難易度から構成されている。
我々は1000回の試験で4つの最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-12-01T01:18:21Z) - CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent [46.41047559759938]
CUA(Computer-using Agent)は、オペレーティングシステムやソフトウェアインターフェースとの自然なインタラクションを通じてタスクの完了を可能にするエージェントである。
Reward モデルは有望な代替手段を提供するが、CUA 評価におけるその有効性はほとんど未検討である。
CUARewardBenchは4つの重要なコントリビューションから構成される。
論文 参考訳(メタデータ) (2025-10-21T12:53:40Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Fine-Tuning Vision-Language Models for Markdown Conversion of Financial Tables in Malaysian Audited Financial Reports [0.0]
本稿ではQwen2.5-VL-7Bに基づく微調整視覚言語モデル(VLM)を提案する。
提案手法には,拡大した2,152枚の画像テキストペアをキュレートしたデータセットと,LoRAを用いた教師付き微調整戦略が含まれる。
基準に基づく評価では92.20%の精度と96.53%のTEDSスコアが得られた。
論文 参考訳(メタデータ) (2025-08-04T04:54:00Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。