論文の概要: FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning
- arxiv url: http://arxiv.org/abs/2412.12567v1
- Date: Tue, 17 Dec 2024 05:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:40.737454
- Title: FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning
- Title(参考訳): FCMR:ファイナンシャルクロスモーダルマルチホップ推論のロバスト評価
- Authors: Seunghee Kim, Changhyeon Kim, Taeuk Kim,
- Abstract要約: MLLMの推論能力を評価するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。
FCMRは3つの難易度(易度、中度、硬度)に分類される。
この新しいベンチマークの実験では、最先端のMLLMでさえ苦戦しており、最高の性能のモデルは最も難しいレベルでは30.4%の精度しか達成していない。
- 参考スコア(独自算出の注目度): 5.65203350495478
- License:
- Abstract: Real-world decision-making often requires integrating and reasoning over information from multiple modalities. While recent multimodal large language models (MLLMs) have shown promise in such tasks, their ability to perform multi-hop reasoning across diverse sources remains insufficiently evaluated. Existing benchmarks, such as MMQA, face challenges due to (1) data contamination and (2) a lack of complex queries that necessitate operations across more than two modalities, hindering accurate performance assessment. To address this, we present Financial Cross-Modal Multi-Hop Reasoning (FCMR), a benchmark created to analyze the reasoning capabilities of MLLMs by urging them to combine information from textual reports, tables, and charts within the financial domain. FCMR is categorized into three difficulty levels-Easy, Medium, and Hard-facilitating a step-by-step evaluation. In particular, problems at the Hard level require precise cross-modal three-hop reasoning and are designed to prevent the disregard of any modality. Experiments on this new benchmark reveal that even state-of-the-art MLLMs struggle, with the best-performing model (Claude 3.5 Sonnet) achieving only 30.4% accuracy on the most challenging tier. We also conduct analysis to provide insights into the inner workings of the models, including the discovery of a critical bottleneck in the information retrieval phase.
- Abstract(参考訳): 現実の意思決定は、しばしば複数のモダリティからの情報の統合と推論を必要とする。
近年のマルチモーダル・大規模言語モデル (MLLM) はそのようなタスクにおいて有望であることを示す一方で, 多様なソースをまたいだマルチホップ推論を行う能力は十分に評価されていない。
MMQAのような既存のベンチマークは、(1)データ汚染と(2)2つ以上のモードにわたる操作を必要とする複雑なクエリの欠如により、正確なパフォーマンス評価を妨げているため、課題に直面している。
そこで本研究では,MLLMの推論能力を分析するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。
FCMRは3つの難易度(易度、中度、硬度)に分類される。
特に、ハードレベルの問題は、正確な三重項の3重項推論を必要とし、いかなるモダリティも無視しないように設計されている。
この新しいベンチマークの実験では、最先端のMLLMでさえ、最高の性能のモデル(Claude 3.5 Sonnet)が最も難しいレベルで30.4%の精度しか達成していないことが示されている。
我々はまた、情報検索フェーズにおける重要なボトルネックの発見を含む、モデルの内部動作に関する洞察を提供するために分析を行う。
関連論文リスト
- MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。
本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications [10.225210627594894]
IJCAI-2024 FinLLMの課題に対して,金融業務の3つの重要な領域におけるLLMの能力について検討した。
金融分類、財務文書要約、単一株式取引について検討する。
提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。
論文 参考訳(メタデータ) (2024-07-02T05:04:13Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。
MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文 参考訳(メタデータ) (2024-06-13T13:51:59Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Stock Movement Prediction with Multimodal Stable Fusion via Gated Cross-Attention Mechanism [11.6870352823637]
本研究は,MSGCA (Multimodal Stable Fusion with Gated Cross-Attention) という新しいアーキテクチャを導入する。
MSGCAフレームワークは、(1)インジケータシーケンス、動的文書、および関係グラフを処理し、それらの特徴表現を標準化する三次符号化モジュール、(2)プライマリおよび一貫性のある特徴が一対のゲート型クロスアテンションネットワークを介して3つのモダリティのマルチモーダル融合を導くクロスフュージョンモジュール、(3)時間的および次元的縮小により融合した特徴を洗練して正確に実行する予測モジュールからなる。
論文 参考訳(メタデータ) (2024-06-06T03:13:34Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - M$^3$CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought [50.576016777061724]
MCoT(Multi-modal Chain-of-Thought)は、ステップバイステップ推論において、テキストと視覚の両方のモダリティからの知識を活用するモデルを必要とする。
現在のMCoTベンチマークでは、(1)視覚的モーダル推論の欠如、(2)単段階視覚的モーダル推論の欠如、(3)ドメインの欠如など、いくつかの課題に直面している。
上記の課題に対処するための新しいベンチマーク(M$3$CoT)を導入し、マルチドメイン、マルチステップ、マルチモーダルCoTを推進した。
論文 参考訳(メタデータ) (2024-05-26T07:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。