論文の概要: FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning
- arxiv url: http://arxiv.org/abs/2412.12567v1
- Date: Tue, 17 Dec 2024 05:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 17:09:38.55662
- Title: FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning
- Title(参考訳): FCMR:ファイナンシャルクロスモーダルマルチホップ推論のロバスト評価
- Authors: Seunghee Kim, Changhyeon Kim, Taeuk Kim,
- Abstract要約: MLLMの推論能力を評価するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。
FCMRは3つの難易度(易度、中度、硬度)に分類される。
この新しいベンチマークの実験では、最先端のMLLMでさえ苦戦しており、最高の性能のモデルは最も難しいレベルでは30.4%の精度しか達成していない。
- 参考スコア(独自算出の注目度): 5.65203350495478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world decision-making often requires integrating and reasoning over information from multiple modalities. While recent multimodal large language models (MLLMs) have shown promise in such tasks, their ability to perform multi-hop reasoning across diverse sources remains insufficiently evaluated. Existing benchmarks, such as MMQA, face challenges due to (1) data contamination and (2) a lack of complex queries that necessitate operations across more than two modalities, hindering accurate performance assessment. To address this, we present Financial Cross-Modal Multi-Hop Reasoning (FCMR), a benchmark created to analyze the reasoning capabilities of MLLMs by urging them to combine information from textual reports, tables, and charts within the financial domain. FCMR is categorized into three difficulty levels-Easy, Medium, and Hard-facilitating a step-by-step evaluation. In particular, problems at the Hard level require precise cross-modal three-hop reasoning and are designed to prevent the disregard of any modality. Experiments on this new benchmark reveal that even state-of-the-art MLLMs struggle, with the best-performing model (Claude 3.5 Sonnet) achieving only 30.4% accuracy on the most challenging tier. We also conduct analysis to provide insights into the inner workings of the models, including the discovery of a critical bottleneck in the information retrieval phase.
- Abstract(参考訳): 現実の意思決定は、しばしば複数のモダリティからの情報の統合と推論を必要とする。
近年のマルチモーダル・大規模言語モデル (MLLM) はそのようなタスクにおいて有望であることを示す一方で, 多様なソースをまたいだマルチホップ推論を行う能力は十分に評価されていない。
MMQAのような既存のベンチマークは、(1)データ汚染と(2)2つ以上のモードにわたる操作を必要とする複雑なクエリの欠如により、正確なパフォーマンス評価を妨げているため、課題に直面している。
そこで本研究では,MLLMの推論能力を分析するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。
FCMRは3つの難易度(易度、中度、硬度)に分類される。
特に、ハードレベルの問題は、正確な三重項の3重項推論を必要とし、いかなるモダリティも無視しないように設計されている。
この新しいベンチマークの実験では、最先端のMLLMでさえ、最高の性能のモデル(Claude 3.5 Sonnet)が最も難しいレベルで30.4%の精度しか達成していないことが示されている。
我々はまた、情報検索フェーズにおける重要なボトルネックの発見を含む、モデルの内部動作に関する洞察を提供するために分析を行う。
関連論文リスト
- FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications [10.225210627594894]
IJCAI-2024 FinLLMの課題に対して,金融業務の3つの重要な領域におけるLLMの能力について検討した。
金融分類、財務文書要約、単一株式取引について検討する。
提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。
論文 参考訳(メタデータ) (2024-07-02T05:04:13Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。
MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文 参考訳(メタデータ) (2024-06-13T13:51:59Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Stock Movement Prediction with Multimodal Stable Fusion via Gated Cross-Attention Mechanism [11.6870352823637]
本研究は,MSGCA (Multimodal Stable Fusion with Gated Cross-Attention) という新しいアーキテクチャを導入する。
MSGCAフレームワークは、(1)インジケータシーケンス、動的文書、および関係グラフを処理し、それらの特徴表現を標準化する三次符号化モジュール、(2)プライマリおよび一貫性のある特徴が一対のゲート型クロスアテンションネットワークを介して3つのモダリティのマルチモーダル融合を導くクロスフュージョンモジュール、(3)時間的および次元的縮小により融合した特徴を洗練して正確に実行する予測モジュールからなる。
論文 参考訳(メタデータ) (2024-06-06T03:13:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。