論文の概要: FinLMM-R1: Enhancing Financial Reasoning in LMM through Scalable Data and Reward Design
- arxiv url: http://arxiv.org/abs/2506.13066v1
- Date: Mon, 16 Jun 2025 03:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.397346
- Title: FinLMM-R1: Enhancing Financial Reasoning in LMM through Scalable Data and Reward Design
- Title(参考訳): FinLMM-R1: スケーラブルデータとリワード設計によるLMMの金融推論の強化
- Authors: Kai Lan, Jiayong Zhu, Jiangtong Li, Dawei Cheng, Guang Chen, Changjun Jiang,
- Abstract要約: FinLMM-R1は、データ構築のための自動化されたスケーラブルなパイプラインと、LMMのマルチモーダル推論を改善するための強化されたトレーニング戦略を組み合わせる。
23,397の財務報告から89,378枚の画像検索ペアを収集し,算術的推論,統計的推論,財務的説明,財務的知識などのタスクを網羅した。
第1段階では、構造化された思考内容の生成において、モデルを導くための形式と精度の報酬を伴うテキストのみのタスクに焦点をあてる。
第2段階では,画像選択,思考内容長,対人報酬などの付加的な報酬成分を付加したマルチイメージコントラスト型サンプルを構築した。
- 参考スコア(独自算出の注目度): 21.582176552307974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) demonstrate significant cross-modal reasoning capabilities. However, financial applications face challenges due to the lack of high-quality multimodal reasoning datasets and the inefficiency of existing training paradigms for reasoning enhancement. To address these issues, we propose an integrated framework, FinLMM-R1, combining an automated and scalable pipeline for data construction with enhanced training strategies to improve the multimodal reasoning of LMM. The Automated and Scalable Pipeline (ASP) resolves textual-visual misalignment in financial reports through a separate paradigm of question-answer generation and image-question alignment, ensuring data integrity and extraction efficiency. Through ASP, we collect 89,378 aligned image-question pairs from 23,397 financial reports, covering tasks such as arithmetic reasoning, statistics reasoning, financial explanation, and financial knowledge. Moreover, we introduce the Thinking with Adversarial Reward in LMM (TAR-LMM), extending the prior two-stage training framework [1] with additional reward mechanisms. In the first stage, we focus on text-only tasks with format and accuracy rewards to guide the model in generating well-structured thinking contents. In the second stage, we construct multi-image contrastive samples with additional reward components including image selection, thinking content length, and adversarial reward to jointly optimize the LMM across visual perception, reasoning efficiency, and logical coherence. Extensive experiments on 7 benchmarks show ASP-derived dataset and training framework significantly improve answer accuracy and reasoning depth over existing reasoning LMMs in both general and financial multimodal contexts.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、重要な相互モーダル推論能力を示す。
しかし、金融アプリケーションは、高品質なマルチモーダル推論データセットの欠如と、推論強化のための既存のトレーニングパラダイムの非効率性により、課題に直面している。
これらの課題に対処するため、LMMのマルチモーダル推論を改善するために、データ構築のための自動化されたスケーラブルなパイプラインと強化されたトレーニング戦略を組み合わせた統合フレームワークFinLMM-R1を提案する。
ASP(Automated and Scalable Pipeline)は、質問応答生成と画像検索アライメントという別のパラダイムを通じて、財務報告のテキストと視覚のミスアライメントを解決し、データの整合性と抽出効率を確保する。
ASPを通じて、算術的推論、統計的推論、財務的説明、財務知識などのタスクを網羅し、23,397の財務報告から89,378枚の画像検索ペアを収集する。
さらに,LMM (TAR-LMM) における逆転による思考(Thinking with Adversarial Reward)を導入し,従来の2段階トレーニングフレームワーク [1] を付加的な報酬機構で拡張する。
第1段階では、構造化された思考内容の生成において、モデルを導くための形式と精度の報酬を伴うテキストのみのタスクに焦点をあてる。
第2段階では,視覚的知覚,推論効率,論理的コヒーレンスにまたがってLMMを協調的に最適化するために,画像選択,思考内容長,対人報酬などの付加的な報酬成分を付加したマルチイメージコントラスト型サンプルを構築した。
7つのベンチマークの大規模な実験により、ASP由来のデータセットとトレーニングフレームワークは、一般的なマルチモーダルコンテキストと財務マルチモーダルコンテキストの両方において、既存の推論LMMよりも解答精度と推論深度を大幅に改善した。
関連論文リスト
- CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model [21.702901343472558]
MLLM(Multimodal Large Language Models)は、LLM(Large Language Models)の成長とともに急速に発展してきた。
本稿では, CFBenchmark-MMについて紹介する。CFBenchmark-MMは, テーブル, ヒストグラムチャート, ラインチャート, パイチャート, 構造図を含む9000以上の画像検索ペアを持つ中国のマルチモーダル・ファイナンス・ベンチマークである。
我々は、段階的に異なる視覚コンテンツを提供することで、マルチモーダル情報を扱う際のMLLMを評価するための段階的評価システムを開発した。
論文 参考訳(メタデータ) (2025-06-16T02:52:44Z) - LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL [32.67667242745463]
規則に基づく多モーダル推論のための2段階のフレームワークをtextbfFoundational Reasoning Enhancement (FRE) と textbfMultimodal Generalization Training (MGT) で提案する。
Qwen2.5-VL-Instruct-3Bの実験では、LMM-R1はマルチモーダルとテキストのみのベンチマークでそれぞれ平均4.83%、平均4.5%向上し、複雑なフットボールゲームでは3.63%向上した。
論文 参考訳(メタデータ) (2025-03-10T17:04:14Z) - MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications [10.225210627594894]
IJCAI-2024 FinLLMの課題に対して,金融業務の3つの重要な領域におけるLLMの能力について検討した。
金融分類、財務文書要約、単一株式取引について検討する。
提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。
論文 参考訳(メタデータ) (2024-07-02T05:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。