論文の概要: FIND: Toward Multimodal Financial Reasoning and Question Answering for Indic Languages
- arxiv url: http://arxiv.org/abs/2605.13330v1
- Date: Wed, 13 May 2026 10:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.99014
- Title: FIND: Toward Multimodal Financial Reasoning and Question Answering for Indic Languages
- Title(参考訳): FIND:多モーダル・ファイナンシャル・推論と質問応答
- Authors: Sarmistha Das, Vaibhav Vishal, Syed Ibrahim Ahmad, Manish Gupta, Sriparna Saha,
- Abstract要約: FinVQAは、多言語Indicコンテキストにおける財務数値およびマルチモーダル推論を評価するためのベンチマークである。
FinVQAは、英語、ヒンディー語、ベンガル語、マラティー語、グジャラーティ語、タミル語にまたがっており、14の金融ドメインで18,900のサンプルで構成されている。
本稿では,教師付き微調整と制約認識デコードを組み合わせて,忠実な数値推論を促進するフレームワークFINDを提案する。
- 参考スコア(独自算出の注目度): 15.921237906667935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial decision-making in multilingual settings demands accurate numerical reasoning grounded in diverse modalities, yet existing benchmarks largely overlook this high-stakes, real-world challenge, especially for Indic languages. We introduce FinVQA, a benchmark for evaluating financial numerical and multimodal reasoning in multilingual Indic contexts. FinVQA spans English, Hindi, Bengali, Marathi, Gujarati, and Tamil, and comprises 18,900 samples across 14 financial domains. The dataset captures diverse reasoning paradigms under realistic constraints, and is structured across three difficulty levels (easy, moderate, hard) and four question formats: multiple choice, fill-in-the-blank, table matching, and true/false. To address these challenges, we propose FIND, a framework that combines supervised fine-tuning with constraint-aware decoding to promote faithful numerical reasoning, robust multimodal grounding, and structured decision-making. Together, FinVQA and FIND establish a rigorous evaluation and modeling paradigm for high-stakes multilingual multimodal financial reasoning.
- Abstract(参考訳): 多言語設定における財務的な意思決定は、様々なモダリティに根ざした正確な数値推論を要求するが、既存のベンチマークは、特にIndic言語において、この高額で現実的な課題を概ね見落としている。
我々は、多言語Indicコンテキストにおける財務数値およびマルチモーダル推論を評価するためのベンチマークであるFinVQAを紹介する。
FinVQAは、英語、ヒンディー語、ベンガル語、マラティー語、グジャラーティ語、タミル語にまたがっており、14の金融ドメインで18,900のサンプルで構成されている。
このデータセットは、現実的な制約の下で多様な推論パラダイムをキャプチャし、複数の選択、補間、テーブルマッチング、真/偽の3つの難易度(易度、中度、硬度)と4つの質問形式で構成されている。
これらの課題に対処するために,教師付き微調整と制約認識デコードを組み合わせたフレームワークであるFINDを提案し,忠実な数値推論,堅牢なマルチモーダルグラウンド,構造化された意思決定を促進する。
FinVQAとFINDは共に、多言語多言語財務推論のための厳格な評価とモデリングパラダイムを確立している。
関連論文リスト
- The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems [54.12165004393043]
FinMMEval 2026は、財務的理解、推論、意思決定にまたがる3つの相互接続タスクを提供する。
このラボは、堅牢で透明でグローバルに包括的な金融AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-02-11T14:14:06Z) - FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation [15.654001393123403]
FinMTMはマルチターンマルチモーダルベンチマークであり、データ次元とタスク次元の両方に沿って多様性を拡張する。
データ側では、財務状況を基礎とした11,133のバイリンガル(中国語と英語)財務QAペアをキュレートし、注釈付けします。
タスク側では、FinMTMはシングルチョイスと複数チョイスの質問、複数ターンのオープンエンド対話、エージェントベースのタスクをカバーしている。
論文 参考訳(メタデータ) (2026-02-03T05:38:24Z) - FINCH: Financial Intelligence using Natural language for Contextualized SQL Handling [1.8679829796354372]
我々は、292のテーブルと75,725の自然言語ベースのペアからなる金融データベース(FINCH)を導入する。
様々なスケールの推論モデルと言語モデルをベンチマークし、その強みと限界を体系的に分析する。
最後に,既存の測度で見過ごされるニュアンスを捉える金融指向評価指標(FINCHスコア)を提案する。
論文 参考訳(メタデータ) (2025-10-02T10:55:11Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - From No to Know: Taxonomy, Challenges, and Opportunities for Negation Understanding in Multimodal Foundation Models [48.68342037881584]
否定は、欠如、否定、矛盾を含む言語構造であり、多言語多モーダル基盤モデルにとって重要な課題である。
本稿では, 否定構造を包括的に分類し, 構造的, 意味的, 文化的要因がマルチモーダル基盤モデルにどのように影響するかを考察する。
我々は、特別なベンチマーク、言語固有のトークン化、きめ細かい注意機構、高度なマルチモーダルアーキテクチャを提唱する。
論文 参考訳(メタデータ) (2025-02-10T16:55:13Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。