論文の概要: MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation
- arxiv url: http://arxiv.org/abs/2506.14028v2
- Date: Thu, 19 Jun 2025 19:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.508508
- Title: MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation
- Title(参考訳): MultiFinBen:金融LLM評価のための多言語・マルチモーダル・難易度ベンチマーク
- Authors: Xueqing Peng, Lingfei Qian, Yan Wang, Ruoyu Xiang, Yueru He, Yang Ren, Mingyang Jiang, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang, Yilun Zhao, Zhiwei Liu, Peng Lu, Jerry Huang, Suyuchen Wang, Triantafillos Papadopoulos, Polydoros Giannouris, Efstathia Soufleri, Nuo Chen, Guojun Xiong, Zhiyang Deng, Yijia Zhao, Mingquan Lin, Meikang Qiu, Kaleb E Smith, Arman Cohan, Xiao-Yang Liu, Jimin Huang, Alejandro Lopez-Lira, Xi Chen, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou, Qianqian Xie,
- Abstract要約: MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。
我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。
本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
- 参考スコア(独自算出の注目度): 89.73542209537148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have accelerated progress in financial NLP and applications, yet existing benchmarks remain limited to monolingual and unimodal settings, often over-relying on simple tasks and failing to reflect the complexity of real-world financial communication. We introduce MultiFinBen, the first multilingual and multimodal benchmark tailored to the global financial domain, evaluating LLMs across modalities (text, vision, audio) and linguistic settings (monolingual, bilingual, multilingual) on domain-specific tasks. We introduce two novel tasks, including PolyFiQA-Easy and PolyFiQA-Expert, the first multilingual financial benchmarks requiring models to perform complex reasoning over mixed-language inputs; and EnglishOCR and SpanishOCR, the first OCR-embedded financial QA tasks challenging models to extract and reason over information from visual-text financial documents. Moreover, we propose a dynamic, difficulty-aware selection mechanism and curate a compact, balanced benchmark rather than simple aggregation existing datasets. Extensive evaluation of 22 state-of-the-art models reveals that even the strongest models, despite their general multimodal and multilingual capabilities, struggle dramatically when faced with complex cross-lingual and multimodal tasks in financial domain. MultiFinBen is publicly released to foster transparent, reproducible, and inclusive progress in financial studies and applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、金融NLPやアプリケーションの進歩を加速させているが、既存のベンチマークは、単純なタスクを過度に考慮し、現実の金融コミュニケーションの複雑さを反映しない、モノリンガルな設定と非モーダルな設定に限られている。
我々はMultiFinBenを紹介した。MultiFinBenは、グローバルファイナンスドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークであり、ドメイン固有のタスクにおいて、モダリティ(テキスト、ビジョン、オーディオ)と言語設定(モノリンガル、バイリンガル、マルチリンガル)のLLMを評価する。
混合言語入力に対する複雑な推論を行うためのモデルを必要とする最初の多言語財務ベンチマークであるPolyFiQA-EasyとPolyFiQA-Expert,OCRを組み込んだ最初の財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。
さらに、動的で難易度の高い選択機構を提案し、既存のデータセットの単純な集約ではなく、コンパクトでバランスの取れたベンチマークをキュレートする。
22の最先端モデルの広範囲な評価は、最も強力なモデルでさえ、一般的なマルチモーダルとマルチランガルの能力にもかかわらず、金融分野における複雑なクロスランガルとマルチモーダルのタスクに直面したとき、劇的に苦戦していることを示している。
MultiFinBenは、財務研究や応用の透明性、再現性、包括的進歩を促進するために、一般公開されている。
関連論文リスト
- CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model [21.702901343472558]
MLLM(Multimodal Large Language Models)は、LLM(Large Language Models)の成長とともに急速に発展してきた。
本稿では, CFBenchmark-MMについて紹介する。CFBenchmark-MMは, テーブル, ヒストグラムチャート, ラインチャート, パイチャート, 構造図を含む9000以上の画像検索ペアを持つ中国のマルチモーダル・ファイナンス・ベンチマークである。
我々は、段階的に異なる視覚コンテンツを提供することで、マルチモーダル情報を扱う際のMLLMを評価するための段階的評価システムを開発した。
論文 参考訳(メタデータ) (2025-06-16T02:52:44Z) - M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset [18.752133381125564]
$texttM$3$FinMeeting$は、財務会議の理解のために設計された、多言語、マルチセクタ、マルチタスクのデータセットである。
まず、英語、中国語、日本語をサポートし、多様な言語文脈における金銭的議論の理解を深める。
第2に、グローバル産業分類基準(GICS)が定める様々な産業分野を包含する。
第3に、要約、質問回答(QA)ペア抽出、質問応答という3つのタスクが含まれており、より現実的で包括的な理解評価を促進する。
論文 参考訳(メタデータ) (2025-06-03T06:41:09Z) - Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。
ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。
Touchstone-GPTをオープンソースとして公開した。
論文 参考訳(メタデータ) (2024-11-09T20:09:11Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks [75.29561463156635]
ICE-PIXIUは、翻訳された英語とオリジナルの英語のデータセットとともに、中国語のタスクのスペクトルを統合する。
多様なモデル変種への無制限アクセス、多言語および多モーダル命令データのコンパイル、エキスパートアノテーションによる評価ベンチマークを提供する。
論文 参考訳(メタデータ) (2024-03-10T16:22:20Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。