論文の概要: The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems
- arxiv url: http://arxiv.org/abs/2602.10886v1
- Date: Wed, 11 Feb 2026 14:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.985528
- Title: The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems
- Title(参考訳): CLEF-2026 FinMMEval Lab:金融AIシステムの多言語・多モーダル評価
- Authors: Zhuohan Xie, Rania Elbadry, Fan Zhang, Georgi Georgiev, Xueqing Peng, Lingfei Qian, Jimin Huang, Dimitar Dimitrov, Vanshikaa Jani, Yuyang Dai, Jiahui Geng, Yuxia Wang, Ivan Koychev, Veselin Stoyanov, Preslav Nakov,
- Abstract要約: FinMMEval 2026は、財務的理解、推論、意思決定にまたがる3つの相互接続タスクを提供する。
このラボは、堅牢で透明でグローバルに包括的な金融AIシステムの開発を促進することを目的としている。
- 参考スコア(独自算出の注目度): 54.12165004393043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the setup and the tasks of the FinMMEval Lab at CLEF 2026, which introduces the first multilingual and multimodal evaluation framework for financial Large Language Models (LLMs). While recent advances in financial natural language processing have enabled automated analysis of market reports, regulatory documents, and investor communications, existing benchmarks remain largely monolingual, text-only, and limited to narrow subtasks. FinMMEval 2026 addresses this gap by offering three interconnected tasks that span financial understanding, reasoning, and decision-making: Financial Exam Question Answering, Multilingual Financial Question Answering (PolyFiQA), and Financial Decision Making. Together, these tasks provide a comprehensive evaluation suite that measures models' ability to reason, generalize, and act across diverse languages and modalities. The lab aims to promote the development of robust, transparent, and globally inclusive financial AI systems, with datasets and evaluation resources publicly released to support reproducible research.
- Abstract(参考訳): 我々はCLEF 2026でFinMMEval Labのセットアップとタスクを紹介し、金融大言語モデル(LLM)のための最初の多言語・マルチモーダル評価フレームワークを紹介した。
金融自然言語処理の最近の進歩は、市場報告、規制文書、投資家のコミュニケーションの自動分析を可能にしているが、既存のベンチマークは、主にモノリンガルであり、テキストのみであり、限られたサブタスクに限定されている。
FinMMEval 2026は、金融理解、推論、意思決定にまたがる3つの相互接続タスク、金融エクサム質問回答(Financial Exam Question Answering)、多言語金融質問回答(PolyFiQA)、金融決定作成(Financial Decision Making)を提供することによって、このギャップに対処する。
これらのタスクは、様々な言語やモダリティをまたいだモデルの推論、一般化、行動の能力を測定する包括的な評価スイートを提供する。
このラボは、再現可能な研究をサポートするために、データセットと評価リソースを公開して、堅牢で透明でグローバルに包括的な金融AIシステムの開発を促進することを目的としている。
関連論文リスト
- UniFinEval: Towards Unified Evaluation of Financial Multimodal Models across Text, Images and Videos [22.530796761115766]
我々は、情報密度の高い金融環境のための最初の統合マルチモーダルベンチマークUniFinEvalを提案する。
UniFinEvalは、現実世界の金融システムに根ざした5つの中核的な金融シナリオを体系的に構築する。
Gemini-3-pro-previewは、全体的なパフォーマンスは最高だが、財務の専門家と比べて大きな差がある。
論文 参考訳(メタデータ) (2026-01-09T10:15:32Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset [18.752133381125564]
$texttM$3$FinMeeting$は、財務会議の理解のために設計された、多言語、マルチセクタ、マルチタスクのデータセットである。
まず、英語、中国語、日本語をサポートし、多様な言語文脈における金銭的議論の理解を深める。
第2に、グローバル産業分類基準(GICS)が定める様々な産業分野を包含する。
第3に、要約、質問回答(QA)ペア抽出、質問応答という3つのタスクが含まれており、より現実的で包括的な理解評価を促進する。
論文 参考訳(メタデータ) (2025-06-03T06:41:09Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。