論文の概要: The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems
- arxiv url: http://arxiv.org/abs/2602.10886v1
- Date: Wed, 11 Feb 2026 14:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.985528
- Title: The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems
- Title(参考訳): CLEF-2026 FinMMEval Lab:金融AIシステムの多言語・多モーダル評価
- Authors: Zhuohan Xie, Rania Elbadry, Fan Zhang, Georgi Georgiev, Xueqing Peng, Lingfei Qian, Jimin Huang, Dimitar Dimitrov, Vanshikaa Jani, Yuyang Dai, Jiahui Geng, Yuxia Wang, Ivan Koychev, Veselin Stoyanov, Preslav Nakov,
- Abstract要約: FinMMEval 2026は、財務的理解、推論、意思決定にまたがる3つの相互接続タスクを提供する。
このラボは、堅牢で透明でグローバルに包括的な金融AIシステムの開発を促進することを目的としている。
- 参考スコア(独自算出の注目度): 54.12165004393043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the setup and the tasks of the FinMMEval Lab at CLEF 2026, which introduces the first multilingual and multimodal evaluation framework for financial Large Language Models (LLMs). While recent advances in financial natural language processing have enabled automated analysis of market reports, regulatory documents, and investor communications, existing benchmarks remain largely monolingual, text-only, and limited to narrow subtasks. FinMMEval 2026 addresses this gap by offering three interconnected tasks that span financial understanding, reasoning, and decision-making: Financial Exam Question Answering, Multilingual Financial Question Answering (PolyFiQA), and Financial Decision Making. Together, these tasks provide a comprehensive evaluation suite that measures models' ability to reason, generalize, and act across diverse languages and modalities. The lab aims to promote the development of robust, transparent, and globally inclusive financial AI systems, with datasets and evaluation resources publicly released to support reproducible research.
- Abstract(参考訳): 我々はCLEF 2026でFinMMEval Labのセットアップとタスクを紹介し、金融大言語モデル(LLM)のための最初の多言語・マルチモーダル評価フレームワークを紹介した。
金融自然言語処理の最近の進歩は、市場報告、規制文書、投資家のコミュニケーションの自動分析を可能にしているが、既存のベンチマークは、主にモノリンガルであり、テキストのみであり、限られたサブタスクに限定されている。
FinMMEval 2026は、金融理解、推論、意思決定にまたがる3つの相互接続タスク、金融エクサム質問回答(Financial Exam Question Answering)、多言語金融質問回答(PolyFiQA)、金融決定作成(Financial Decision Making)を提供することによって、このギャップに対処する。
これらのタスクは、様々な言語やモダリティをまたいだモデルの推論、一般化、行動の能力を測定する包括的な評価スイートを提供する。
このラボは、再現可能な研究をサポートするために、データセットと評価リソースを公開して、堅牢で透明でグローバルに包括的な金融AIシステムの開発を促進することを目的としている。
関連論文リスト
- FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation [15.654001393123403]
FinMTMはマルチターンマルチモーダルベンチマークであり、データ次元とタスク次元の両方に沿って多様性を拡張する。
データ側では、財務状況を基礎とした11,133のバイリンガル(中国語と英語)財務QAペアをキュレートし、注釈付けします。
タスク側では、FinMTMはシングルチョイスと複数チョイスの質問、複数ターンのオープンエンド対話、エージェントベースのタスクをカバーしている。
論文 参考訳(メタデータ) (2026-02-03T05:38:24Z) - UniFinEval: Towards Unified Evaluation of Financial Multimodal Models across Text, Images and Videos [22.530796761115766]
我々は、情報密度の高い金融環境のための最初の統合マルチモーダルベンチマークUniFinEvalを提案する。
UniFinEvalは、現実世界の金融システムに根ざした5つの中核的な金融シナリオを体系的に構築する。
Gemini-3-pro-previewは、全体的なパフォーマンスは最高だが、財務の専門家と比べて大きな差がある。
論文 参考訳(メタデータ) (2026-01-09T10:15:32Z) - Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection [64.75447949495307]
大規模言語モデル (LLM) は金融分野に広く適用されている。
行動バイアスは、意思決定における不安定性と不確実性をもたらす可能性がある。
mfmdscenは様々な経済シナリオで mfmdの行動バイアスを評価するベンチマークです
論文 参考訳(メタデータ) (2026-01-08T22:00:32Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset [18.752133381125564]
$texttM$3$FinMeeting$は、財務会議の理解のために設計された、多言語、マルチセクタ、マルチタスクのデータセットである。
まず、英語、中国語、日本語をサポートし、多様な言語文脈における金銭的議論の理解を深める。
第2に、グローバル産業分類基準(GICS)が定める様々な産業分野を包含する。
第3に、要約、質問回答(QA)ペア抽出、質問応答という3つのタスクが含まれており、より現実的で包括的な理解評価を促進する。
論文 参考訳(メタデータ) (2025-06-03T06:41:09Z) - Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。
ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。
Touchstone-GPTをオープンソースとして公開した。
論文 参考訳(メタデータ) (2024-11-09T20:09:11Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。