論文の概要: UniFinEval: Towards Unified Evaluation of Financial Multimodal Models across Text, Images and Videos
- arxiv url: http://arxiv.org/abs/2601.22162v1
- Date: Fri, 09 Jan 2026 10:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.148528
- Title: UniFinEval: Towards Unified Evaluation of Financial Multimodal Models across Text, Images and Videos
- Title(参考訳): UniFinEval: テキスト,画像,ビデオ間の金融マルチモーダルモデルの統一評価を目指して
- Authors: Zhi Yang, Lingfeng Zeng, Fangqi Lou, Qi Qi, Wei Zhang, Zhenyu Wu, Zhenxiong Yu, Jun Han, Zhiheng Jin, Lejie Zhang, Xiaoming Huang, Xiaolong Liang, Zheng Wei, Junbo Zou, Dongpo Cheng, Zhaowei Liu, Xin Guo, Rongjunchen Zhang, Liwen Zhang,
- Abstract要約: 我々は、情報密度の高い金融環境のための最初の統合マルチモーダルベンチマークUniFinEvalを提案する。
UniFinEvalは、現実世界の金融システムに根ざした5つの中核的な金融シナリオを体系的に構築する。
Gemini-3-pro-previewは、全体的なパフォーマンスは最高だが、財務の専門家と比べて大きな差がある。
- 参考スコア(独自算出の注目度): 22.530796761115766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models are playing an increasingly significant role in empowering the financial domain, however, the challenges they face, such as multimodal and high-density information and cross-modal multi-hop reasoning, go beyond the evaluation scope of existing multimodal benchmarks. To address this gap, we propose UniFinEval, the first unified multimodal benchmark designed for high-information-density financial environments, covering text, images, and videos. UniFinEval systematically constructs five core financial scenarios grounded in real-world financial systems: Financial Statement Auditing, Company Fundamental Reasoning, Industry Trend Insights, Financial Risk Sensing, and Asset Allocation Analysis. We manually construct a high-quality dataset consisting of 3,767 question-answer pairs in both chinese and english and systematically evaluate 10 mainstream MLLMs under Zero-Shot and CoT settings. Results show that Gemini-3-pro-preview achieves the best overall performance, yet still exhibits a substantial gap compared to financial experts. Further error analysis reveals systematic deficiencies in current models. UniFinEval aims to provide a systematic assessment of MLLMs' capabilities in fine-grained, high-information-density financial environments, thereby enhancing the robustness of MLLMs applications in real-world financial scenarios. Data and code are available at https://github.com/aifinlab/UniFinEval.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは金融分野の強化においてますます重要な役割を担っているが、マルチモーダルおよび高密度情報やクロスモーダルなマルチホップ推論といった課題は、既存のマルチモーダルベンチマークの評価範囲を越えている。
このギャップに対処するため,UniFinEvalを提案する。UniFinEvalは,高情報密度財務環境向けに設計され,テキスト,画像,ビデオをカバーする最初の統一マルチモーダルベンチマークである。
UniFinEvalは、ファイナンシャル・ステートメント監査、企業基本推論、産業トレンドインサイト、ファイナンシャル・リスク・センシング、アセット・アロケーション分析の5つの主要な金融シナリオを体系的に構築している。
我々は中国語と英語の両方で3,767組の質問応答ペアからなる高品質なデータセットを手動で構築し、Zero-ShotとCoT設定で10のメインストリームMLLMを体系的に評価する。
Gemini-3-pro-previewは、全体的なパフォーマンスで最高の成績を収めるが、財務の専門家に比べれば大きな差があることを示している。
さらなる誤差解析は、現在のモデルにおける体系的な欠陥を明らかにする。
UniFinEvalは,MLLMの詳細な情報密度の高い財務環境において,MLLMの能力を体系的に評価することを目的としており,現実の金融シナリオにおけるMLLMアプリケーションの堅牢性を高めることを目的としている。
データとコードはhttps://github.com/aifinlab/UniFinEval.comで入手できる。
関連論文リスト
- Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection [64.75447949495307]
大規模言語モデル (LLM) は金融分野に広く適用されている。
行動バイアスは、意思決定における不安定性と不確実性をもたらす可能性がある。
mfmdscenは様々な経済シナリオで mfmdの行動バイアスを評価するベンチマークです
論文 参考訳(メタデータ) (2026-01-08T22:00:32Z) - FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。
プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。
2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文 参考訳(メタデータ) (2025-10-19T14:05:35Z) - FinWorld: An All-in-One Open-Source Platform for End-to-End Financial AI Research and Deployment [33.436388581893944]
FinWorldは、財務AIワークフロー全体に対するエンドツーエンドのサポートを提供する、オールインワンのオープンソースプラットフォームである。
4つの主要な金融AIタスクに関する総合的な実験を行います。
論文 参考訳(メタデータ) (2025-08-04T11:02:34Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model [21.702901343472558]
MLLM(Multimodal Large Language Models)は、LLM(Large Language Models)の成長とともに急速に発展してきた。
本稿では, CFBenchmark-MMについて紹介する。CFBenchmark-MMは, テーブル, ヒストグラムチャート, ラインチャート, パイチャート, 構造図を含む9000以上の画像検索ペアを持つ中国のマルチモーダル・ファイナンス・ベンチマークである。
我々は、段階的に異なる視覚コンテンツを提供することで、マルチモーダル情報を扱う際のMLLMを評価するための段階的評価システムを開発した。
論文 参考訳(メタデータ) (2025-06-16T02:52:44Z) - FinS-Pilot: A Benchmark for Online Financial RAG System [21.64301644235658]
FinS-Pilotはオンライン金融アプリケーションにおけるRAGシステム評価のための新しいベンチマークである。
我々のベンチマークでは、インテント分類フレームワークによって編成されたリアルタイムAPIデータとテキストデータの両方が組み込まれている。
本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとデータセットの両立に寄与する。
論文 参考訳(メタデータ) (2025-05-31T03:50:19Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。