論文の概要: M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset
- arxiv url: http://arxiv.org/abs/2506.02510v1
- Date: Tue, 03 Jun 2025 06:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.374467
- Title: M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset
- Title(参考訳): M$3$FinMeeting: 評価データセット理解のための多言語・マルチセクタ・マルチタスクファイナンシャルミーティング
- Authors: Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen,
- Abstract要約: $texttM$3$FinMeeting$は、財務会議の理解のために設計された、多言語、マルチセクタ、マルチタスクのデータセットである。
まず、英語、中国語、日本語をサポートし、多様な言語文脈における金銭的議論の理解を深める。
第2に、グローバル産業分類基準(GICS)が定める様々な産業分野を包含する。
第3に、要約、質問回答(QA)ペア抽出、質問応答という3つのタスクが含まれており、より現実的で包括的な理解評価を促進する。
- 参考スコア(独自算出の注目度): 18.752133381125564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in large language models (LLMs) have led to the development of new benchmarks for evaluating their performance in the financial domain. However, current financial benchmarks often rely on news articles, earnings reports, or announcements, making it challenging to capture the real-world dynamics of financial meetings. To address this gap, we propose a novel benchmark called $\texttt{M$^3$FinMeeting}$, which is a multilingual, multi-sector, and multi-task dataset designed for financial meeting understanding. First, $\texttt{M$^3$FinMeeting}$ supports English, Chinese, and Japanese, enhancing comprehension of financial discussions in diverse linguistic contexts. Second, it encompasses various industry sectors defined by the Global Industry Classification Standard (GICS), ensuring that the benchmark spans a broad range of financial activities. Finally, $\texttt{M$^3$FinMeeting}$ includes three tasks: summarization, question-answer (QA) pair extraction, and question answering, facilitating a more realistic and comprehensive evaluation of understanding. Experimental results with seven popular LLMs reveal that even the most advanced long-context models have significant room for improvement, demonstrating the effectiveness of $\texttt{M$^3$FinMeeting}$ as a benchmark for assessing LLMs' financial meeting comprehension skills.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、金融分野での性能を評価するための新しいベンチマークの開発につながっている。
しかし、現在の金融ベンチマークはニュース記事や決算報告、発表に頼っていることが多いため、財務会議の現実のダイナミクスを捉えるのは難しい。
このギャップに対処するために、金融会議理解のために設計された多言語、マルチセクタ、マルチタスクデータセットである$\texttt{M$^3$FinMeeting}$という新しいベンチマークを提案する。
まず、$\texttt{M$^3$FinMeeting}$は英語、中国語、日本語をサポートし、多様な言語文脈における金銭的議論の理解を深める。
第2に、Global Industry Classification Standard (GICS) によって定義された様々な産業分野を包含し、このベンチマークが幅広い金融活動にまたがることを保証する。
最後に$\texttt{M$^3$FinMeeting}$には、要約、質問応答(QA)ペア抽出、質問応答という3つのタスクが含まれており、より現実的で包括的な理解評価を促進する。
7つの人気のあるLLMによる実験結果から、最も先進的なロングコンテキストモデルでさえ改善の余地があり、LLMの財務会議理解スキルを評価するためのベンチマークとして$\texttt{M$^3$FinMeeting}$の有効性が示された。
関連論文リスト
- FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging [12.897569424944107]
FinMMRは、金融数値推論タスクにおけるマルチモーダル大言語モデル(MLLM)の推論能力を評価するために設計された、新しいバイリンガルベンチマークである。
FinMMRは、テーブル、バーチャート、オーナシップ構造チャートを含む14のカテゴリにまたがる4.3Kの質問と8.7Kのイメージで構成されている。
論文 参考訳(メタデータ) (2025-08-06T16:51:09Z) - MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.73542209537148]
MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。
我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。
本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model [21.702901343472558]
MLLM(Multimodal Large Language Models)は、LLM(Large Language Models)の成長とともに急速に発展してきた。
本稿では, CFBenchmark-MMについて紹介する。CFBenchmark-MMは, テーブル, ヒストグラムチャート, ラインチャート, パイチャート, 構造図を含む9000以上の画像検索ペアを持つ中国のマルチモーダル・ファイナンス・ベンチマークである。
我々は、段階的に異なる視覚コンテンツを提供することで、マルチモーダル情報を扱う際のMLLMを評価するための段階的評価システムを開発した。
論文 参考訳(メタデータ) (2025-06-16T02:52:44Z) - FinNLI: Novel Dataset for Multi-Genre Financial Natural Language Inference Benchmarking [7.091661099911842]
FinNLIは21,304対で構成され、財務の専門家が注釈付けした3,304インスタンスの高品質なテストセットを含んでいる。
プレトレーニング(PLM)と大規模言語モデル(LLM)の最高スコアはそれぞれ74.57%と78.62%である。
論文 参考訳(メタデータ) (2025-04-22T18:25:17Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - FinMTEB: Finance Massive Text Embedding Benchmark [18.990655668481075]
金融分野向けに設計されたMTEBに特化して開発されたFinMTEB(FinMTEB)について紹介する。
FinMTEBは、7つのタスクにまたがる64の金融ドメイン固有の埋め込みデータセットで構成されている。
1)汎用ベンチマークのパフォーマンスは,金融ドメインタスクとの相関が限定されていること,(2)ドメイン適応モデルの方が汎用タスクより一貫して優れていること,(3)意外なことに,単純なBag-of-Wordsアプローチは,金融セマンティックテクスチャ類似タスクにおける高度に密着した埋め込みよりも優れていること,の3つの重要な結果を示す。
論文 参考訳(メタデータ) (2025-02-16T04:23:52Z) - Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。
ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。
Touchstone-GPTをオープンソースとして公開した。
論文 参考訳(メタデータ) (2024-11-09T20:09:11Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。
金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。
最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文 参考訳(メタデータ) (2024-06-29T08:26:49Z) - No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks [75.29561463156635]
ICE-PIXIUは、翻訳された英語とオリジナルの英語のデータセットとともに、中国語のタスクのスペクトルを統合する。
多様なモデル変種への無制限アクセス、多言語および多モーダル命令データのコンパイル、エキスパートアノテーションによる評価ベンチマークを提供する。
論文 参考訳(メタデータ) (2024-03-10T16:22:20Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。