論文の概要: MultiFinRAG: An Optimized Multimodal Retrieval-Augmented Generation (RAG) Framework for Financial Question Answering
- arxiv url: http://arxiv.org/abs/2506.20821v1
- Date: Wed, 25 Jun 2025 20:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.882814
- Title: MultiFinRAG: An Optimized Multimodal Retrieval-Augmented Generation (RAG) Framework for Financial Question Answering
- Title(参考訳): MultiFinRAG:財務質問応答のための最適化されたマルチモーダル検索型生成(RAG)フレームワーク
- Authors: Chinmay Gondhalekar, Urjitkumar Patel, Fang-Chun Yeh,
- Abstract要約: MultiFinRAGは、財務文書のための検索強化された生成フレームワークである。
テーブルとフィギュアをグループ化してマルチモーダル抽出を行い、構造化された要約と簡潔な要約を生成する。
テキスト、テーブル、画像、複合マルチモーダル推論を含む複雑な財務タスクにおいて、ChatGPT-4oよりも19パーセント高い精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Financial documents--such as 10-Ks, 10-Qs, and investor presentations--span hundreds of pages and combine diverse modalities, including dense narrative text, structured tables, and complex figures. Answering questions over such content often requires joint reasoning across modalities, which strains traditional large language models (LLMs) and retrieval-augmented generation (RAG) pipelines due to token limitations, layout loss, and fragmented cross-modal context. We introduce MultiFinRAG, a retrieval-augmented generation framework purpose-built for financial QA. MultiFinRAG first performs multimodal extraction by grouping table and figure images into batches and sending them to a lightweight, quantized open-source multimodal LLM, which produces both structured JSON outputs and concise textual summaries. These outputs, along with narrative text, are embedded and indexed with modality-aware similarity thresholds for precise retrieval. A tiered fallback strategy then dynamically escalates from text-only to text+table+image contexts when necessary, enabling cross-modal reasoning while reducing irrelevant context. Despite running on commodity hardware, MultiFinRAG achieves 19 percentage points higher accuracy than ChatGPT-4o (free-tier) on complex financial QA tasks involving text, tables, images, and combined multimodal reasoning.
- Abstract(参考訳): 10-K、10-Q、投資家によるプレゼンテーションなど、財務文書は数百ページを拡大し、密集した物語テキスト、構造化されたテーブル、複雑な数字など、さまざまなモダリティを組み合わせている。
従来の大規模言語モデル(LLM)と検索拡張生成(RAG)パイプラインを、トークンの制限、レイアウトの損失、断片化されたクロスモーダルコンテキストによって歪ませる。
ファイナンシャルQAのために構築された検索拡張型生成フレームワークであるMultiFinRAGを紹介する。
MultiFinRAGはまず、テーブルとフィギュア画像をバッチにまとめて、軽量で量子化されたオープンソースのマルチモーダルLSMに送信することでマルチモーダル抽出を行い、構造化されたJSON出力と簡潔なテキスト要約を生成する。
これらのアウトプットは、物語テキストとともに、正確な検索のためのモダリティ対応類似度閾値を組み込んでインデックス付けされる。
タイアップされたフォールバック戦略は、必要に応じてテキストのみからテキスト+テーブル+イメージのコンテキストに動的にエスカレートし、無関係なコンテキストを減らしながら、モーダルな推論を可能にする。
MultiFinRAGは、コモディティハードウェア上で動作するにもかかわらず、テキスト、テーブル、画像、複合マルチモーダル推論を含む複雑なQAタスクにおいて、ChatGPT-4o(フリー層)よりも19パーセント高い精度を達成する。
関連論文リスト
- MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.73542209537148]
MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。
我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。
本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.30364248231053]
本稿では,M2RAG(Multi-Modal Retrieval-Augmented Generation)を紹介する。
M2RAGはマルチモーダル大言語モデル(MLLM)の有効性を評価するためのベンチマークである。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。