Fugu-MT 論文翻訳(概要): FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering

論文の概要: FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering

arxiv url: http://arxiv.org/abs/2410.04526v1
Date: Tue, 8 Oct 2024 05:06:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 06:56:10.192121
Title: FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering
Title（参考訳）: FAMMA:ファイナンシャルドメイン多言語マルチモーダル質問回答のベンチマーク
Authors: Siqiao Xue, Tingting Chen, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei,
Abstract要約: FAMMAは、金融マルチ言語によるマルチモーダル質問応答のためのオープンソースのベンチマークである。大学教科書と試験から精巧に収集された質問応答ペアは1,758個ある。ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。
参考スコア（独自算出の注目度）: 22.245216871611678
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce FAMMA, an open-source benchmark for financial multilingual multimodal question answering (QA). Our benchmark aims to evaluate the abilities of multimodal large language models (MLLMs) in answering questions that require advanced financial knowledge and sophisticated reasoning. It includes 1,758 meticulously collected question-answer pairs from university textbooks and exams, spanning 8 major subfields in finance including corporate finance, asset management, and financial engineering. Some of the QA pairs are written in Chinese or French, while a majority of them are in English. These questions are presented in a mixed format combining text and heterogeneous image types, such as charts, tables, and diagrams. We evaluate a range of state-of-the-art MLLMs on our benchmark, and our analysis shows that FAMMA poses a significant challenge for these models. Even advanced systems like GPT-4o and Claude-35-Sonnet achieve only 42\% accuracy. Additionally, the open-source Qwen2-VL lags notably behind its proprietary counterparts. Lastly, we explore GPT o1-style reasoning chains to enhance the models' reasoning capabilities, which significantly improve error correction. Our FAMMA benchmark will facilitate future research to develop expert systems in financial QA. The leaderboard is available at https://famma-bench.github.io/famma/ .
Abstract（参考訳）: 本稿では,金融多言語質問応答(QA)のオープンソースベンチマークであるFAMMAを紹介する。本ベンチマークは,高度な財務知識と洗練された推論を必要とする質問に対して,MLLM(Multimodal Large Language Model)の能力を評価することを目的とする。大学教科書と試験から精巧に収集された1,758組の質問応答ペアが含まれており、企業財務、資産管理、金融工学を含む8つの金融分野にまたがっている。 QAペアのいくつかは中国語またはフランス語で書かれており、その大半は英語で書かれている。これらの質問は、テキストと、チャート、テーブル、ダイアグラムなどの異種画像タイプを組み合わせた混合形式で提示される。ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。 GPT-4oやClaude-35-Sonnetのような先進的なシステムでさえ、わずか42\%の精度しか達成していない。さらに、オープンソースのQwen2-VLは、プロプライエタリな製品よりも特に遅れている。最後に, GPT o1-style reasoning chains to enhance the model's reasoning capabilities, which is significantly improve error correction。当社のFAMMAベンチマークは、金融QAのエキスパートシステム開発を後押しする。リーダーボードはhttps://famma-bench.github.io/famma/で入手できる。

関連論文リスト

MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI [59.196131618912005]
マルチモーダル大規模言語モデル(MLLM)の進展における推論の役割既存のMLLMベンチマークは、しばしば、長鎖推論能力の正確かつ包括的な評価において不足している。 MLLM長鎖推論能力を正確かつ包括的に評価する新しいベンチマークであるMMReasonを紹介する。
論文参考訳（メタデータ） (2025-06-30T07:14:38Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
KFinEval-Pilot: A Comprehensive Benchmark Suite for Korean Financial Language Understanding [6.3604109210772934]
KFinEval-Pilotは、韓国の金融ドメインで大規模言語モデル(LLM)を評価するために設計されたベンチマークスイートである。金融知識、法的推論、金融毒性の3つの重要な領域に1,000以上のキュレートされた質問が含まれている。
論文参考訳（メタデータ） (2025-04-17T00:12:58Z)
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。 6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文参考訳（メタデータ） (2025-04-08T08:06:53Z)
Uhura: A Benchmark for Evaluating Scientific Question Answering and Truthfulness in Low-Resource African Languages [22.46637417012878]
原文(投稿日:2010/01/16)へのリンク Uhura - 6種類のアフリカ言語における2つのタスクに焦点を当てた新しいベンチマークを提示する。最初のデータセットであるUhura-ARC-Easyは、複数の選択科学の質問で構成されている。 2つめのUhura-TruthfulQAは、健康、法律、金融、政治などのトピックに関するモデルの真偽をテストする安全ベンチマークである。
論文参考訳（メタデータ） (2024-12-01T19:46:40Z)
Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。 Touchstone-GPTをオープンソースとして公開した。
論文参考訳（メタデータ） (2024-11-09T20:09:11Z)
MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning [42.80085792749683]
本稿では,VQA(Visual Question Answering)ベンチマークであるMME-Financeを提案する。このベンチマークの特徴は財務と専門知識であり、実際のユーザのニーズを反映したチャートの構築を含む。また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。
論文参考訳（メタデータ） (2024-11-05T18:59:51Z)
MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language [7.488965571323756]
アラビア語(MQA-KEAL)の知識編集に基づくマルチホップ質問回答を提案する。 MQA-KEALは、知識編集を構造化知識単位として外部メモリに格納する。また,KE による MQA の厳密な性能評価のための MQA-AEVAL も提案した。
論文参考訳（メタデータ） (2024-09-18T18:40:02Z)
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文参考訳（メタデータ） (2024-08-20T16:15:28Z)
CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文参考訳（メタデータ） (2024-07-02T14:34:36Z)
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文参考訳（メタデータ） (2024-06-26T17:50:11Z)
SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation [50.061029816288936]
本稿では,SciFIBenchを科学的図形解釈ベンチマークとして紹介する。主要なベンチマークは、12のカテゴリにまたがる2つのタスクで分割された1000個のゴールドの質問からなる。質問はCS arXiv紙のフィギュアとキャプションから収集され、敵対的フィルタリングを用いてハードネガティブを見つけ、品質管理のための人間による検証を行う。 SciFIBench上で26のLMMを評価し、これは挑戦的なベンチマークであることが判明した。
論文参考訳（メタデータ） (2024-05-14T17:54:17Z)
FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models [37.34801677290571]
FanOutQA(ファンアウトQA)は、ウィキペディアによる高品質な質問応答ペアと人間による注釈付き分解のデータセットである。 GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化します。
論文参考訳（メタデータ） (2024-02-21T20:30:45Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
FinanceBench: A New Benchmark for Financial Question Answering [28.865821741574237]
FinanceBenchは、オープンブックの財務質問応答(QA)上でのLLMのパフォーマンスを評価するための、第一級テストスイートである。公開企業に関する10,231の質問と、それに対応する回答と証拠の文字列で構成されている。ファイナンスベンチから150例のサンプルを用いて16のアートモデル構成を検証し,手動で回答を確認した。
論文参考訳（メタデータ） (2023-11-20T17:28:02Z)
DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。 DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2023-10-23T11:33:41Z)
FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。 FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文参考訳（メタデータ） (2023-08-19T10:38:00Z)
GPT-3 Models are Few-Shot Financial Reasoners [1.0742675209112622]
金融分野において、事前訓練された言語モデルがどの程度理にかなっているかは分かっていない。我々は、GPT-3でいくつかの実験を行い、別個の検索モデルと論理エンジンが重要なコンポーネントであり続けていることを発見した。これにより, GPT-3 に対する改良されたプロンプトエンジニアリング手法は, 微調整を伴わずにSOTA 付近の精度を達成できる。
論文参考訳（メタデータ） (2023-07-25T16:21:07Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (2022-09-20T07:04:24Z)
MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文参考訳（メタデータ） (2021-04-13T09:14:28Z)
Reinforced Multi-task Approach for Multi-hop Question Generation [47.15108724294234]
我々は,その文脈における支援事実に基づいて,関連する質問を生成することを目的としたマルチホップ質問生成を取り上げている。我々は,質問生成を導くために,回答認識支援事実予測の補助タスクを備えたマルチタスク学習を採用する。マルチホップ質問応答データセットHotPotQAの実験を通して,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2020-04-05T10:16:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。