Fugu-MT 論文翻訳(概要): MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

論文の概要: MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

arxiv url: http://arxiv.org/abs/2506.14028v2
Date: Thu, 19 Jun 2025 19:27:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 12:57:34.508508
Title: MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation
Title（参考訳）: MultiFinBen:金融LLM評価のための多言語・マルチモーダル・難易度ベンチマーク
Authors: Xueqing Peng, Lingfei Qian, Yan Wang, Ruoyu Xiang, Yueru He, Yang Ren, Mingyang Jiang, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang, Yilun Zhao, Zhiwei Liu, Peng Lu, Jerry Huang, Suyuchen Wang, Triantafillos Papadopoulos, Polydoros Giannouris, Efstathia Soufleri, Nuo Chen, Guojun Xiong, Zhiyang Deng, Yijia Zhao, Mingquan Lin, Meikang Qiu, Kaleb E Smith, Arman Cohan, Xiao-Yang Liu, Jimin Huang, Alejandro Lopez-Lira, Xi Chen, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou, Qianqian Xie,
Abstract要約: MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
参考スコア（独自算出の注目度）: 89.73542209537148
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large language models (LLMs) have accelerated progress in financial NLP and applications, yet existing benchmarks remain limited to monolingual and unimodal settings, often over-relying on simple tasks and failing to reflect the complexity of real-world financial communication. We introduce MultiFinBen, the first multilingual and multimodal benchmark tailored to the global financial domain, evaluating LLMs across modalities (text, vision, audio) and linguistic settings (monolingual, bilingual, multilingual) on domain-specific tasks. We introduce two novel tasks, including PolyFiQA-Easy and PolyFiQA-Expert, the first multilingual financial benchmarks requiring models to perform complex reasoning over mixed-language inputs; and EnglishOCR and SpanishOCR, the first OCR-embedded financial QA tasks challenging models to extract and reason over information from visual-text financial documents. Moreover, we propose a dynamic, difficulty-aware selection mechanism and curate a compact, balanced benchmark rather than simple aggregation existing datasets. Extensive evaluation of 22 state-of-the-art models reveals that even the strongest models, despite their general multimodal and multilingual capabilities, struggle dramatically when faced with complex cross-lingual and multimodal tasks in financial domain. MultiFinBen is publicly released to foster transparent, reproducible, and inclusive progress in financial studies and applications.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、金融NLPやアプリケーションの進歩を加速させているが、既存のベンチマークは、単純なタスクを過度に考慮し、現実の金融コミュニケーションの複雑さを反映しない、モノリンガルな設定と非モーダルな設定に限られている。我々はMultiFinBenを紹介した。MultiFinBenは、グローバルファイナンスドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークであり、ドメイン固有のタスクにおいて、モダリティ(テキスト、ビジョン、オーディオ)と言語設定(モノリンガル、バイリンガル、マルチリンガル)のLLMを評価する。混合言語入力に対する複雑な推論を行うためのモデルを必要とする最初の多言語財務ベンチマークであるPolyFiQA-EasyとPolyFiQA-Expert,OCRを組み込んだ最初の財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。さらに、動的で難易度の高い選択機構を提案し、既存のデータセットの単純な集約ではなく、コンパクトでバランスの取れたベンチマークをキュレートする。 22の最先端モデルの広範囲な評価は、最も強力なモデルでさえ、一般的なマルチモーダルとマルチランガルの能力にもかかわらず、金融分野における複雑なクロスランガルとマルチモーダルのタスクに直面したとき、劇的に苦戦していることを示している。 MultiFinBenは、財務研究や応用の透明性、再現性、包括的進歩を促進するために、一般公開されている。

関連論文リスト

The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems [54.12165004393043]
FinMMEval 2026は、財務的理解、推論、意思決定にまたがる3つの相互接続タスクを提供する。このラボは、堅牢で透明でグローバルに包括的な金融AIシステムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2026-02-11T14:14:06Z)
When Tables Go Crazy: Evaluating Multimodal Models on French Financial Documents [3.4992819560032267]
視覚言語モデル(VLM)は、多くの文書理解タスクでよく機能するが、専門の非英語領域での信頼性は未定である。本稿では、フランスの財務文書理解を評価するための最初のマルチモーダルベンチマークであるMultimodal Finance Evalを紹介する。データセットには、テキスト抽出、テーブル理解、チャート解釈、マルチターン会話推論にまたがる1,204のエキスパート検証された質問が含まれている。
論文参考訳（メタデータ） (2026-02-11T00:04:56Z)
M3TQA: Massively Multilingual Multitask Table Question Answering [39.99483693397598]
m3TQA-Instructは97の言語にまたがる大規模なベンチマークである。我々は、中国語と英語で50の現実世界のテーブルをキュレートしてm3TQAを構築し、DeepSeekとGPT-4oをベースとした堅牢な6ステップの翻訳パイプラインを適用した。このベンチマークには、微妙なテーブル推論能力を評価するために設計された4つのタスクに2,916の専門的なアノテートされた質問応答ペアが含まれている。
論文参考訳（メタデータ） (2025-08-22T09:57:40Z)
MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks [25.75895667904485]
MCIF (Multimodal Crosslingual Instruction following) は、科学的な議論に基づく最初の多言語人手によるベンチマークである。 MCFは、音声、視覚、テキストの3つの中核モダリティと4つの多言語(英語、ドイツ語、イタリア語、中国語)にまたがる。 MLLMの言語間の命令を解釈し、それをマルチモーダルな文脈情報と組み合わせることで、包括的なMLLMの能力の評価を可能にする。
論文参考訳（メタデータ） (2025-07-25T19:00:51Z)
CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model [21.702901343472558]
MLLM(Multimodal Large Language Models)は、LLM(Large Language Models)の成長とともに急速に発展してきた。本稿では, CFBenchmark-MMについて紹介する。CFBenchmark-MMは, テーブル, ヒストグラムチャート, ラインチャート, パイチャート, 構造図を含む9000以上の画像検索ペアを持つ中国のマルチモーダル・ファイナンス・ベンチマークである。我々は、段階的に異なる視覚コンテンツを提供することで、マルチモーダル情報を扱う際のMLLMを評価するための段階的評価システムを開発した。
論文参考訳（メタデータ） (2025-06-16T02:52:44Z)
M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset [18.752133381125564]
$texttM$3$FinMeeting$は、財務会議の理解のために設計された、多言語、マルチセクタ、マルチタスクのデータセットである。まず、英語、中国語、日本語をサポートし、多様な言語文脈における金銭的議論の理解を深める。第2に、グローバル産業分類基準(GICS)が定める様々な産業分野を包含する。第3に、要約、質問回答(QA)ペア抽出、質問応答という3つのタスクが含まれており、より現実的で包括的な理解評価を促進する。
論文参考訳（メタデータ） (2025-06-03T06:41:09Z)
Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。 Touchstone-GPTをオープンソースとして公開した。
論文参考訳（メタデータ） (2024-11-09T20:09:11Z)
Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。 Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文参考訳（メタデータ） (2024-10-21T00:59:47Z)
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。 FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文参考訳（メタデータ） (2024-08-20T16:15:28Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks [75.29561463156635]
ICE-PIXIUは、翻訳された英語とオリジナルの英語のデータセットとともに、中国語のタスクのスペクトルを統合する。多様なモデル変種への無制限アクセス、多言語および多モーダル命令データのコンパイル、エキスパートアノテーションによる評価ベンチマークを提供する。
論文参考訳（メタデータ） (2024-03-10T16:22:20Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。