論文の概要: M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset
- arxiv url: http://arxiv.org/abs/2506.02510v1
- Date: Tue, 03 Jun 2025 06:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.374467
- Title: M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset
- Title(参考訳): M$3$FinMeeting: 評価データセット理解のための多言語・マルチセクタ・マルチタスクファイナンシャルミーティング
- Authors: Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen,
- Abstract要約: $texttM$3$FinMeeting$は、財務会議の理解のために設計された、多言語、マルチセクタ、マルチタスクのデータセットである。
まず、英語、中国語、日本語をサポートし、多様な言語文脈における金銭的議論の理解を深める。
第2に、グローバル産業分類基準(GICS)が定める様々な産業分野を包含する。
第3に、要約、質問回答(QA)ペア抽出、質問応答という3つのタスクが含まれており、より現実的で包括的な理解評価を促進する。
- 参考スコア(独自算出の注目度): 18.752133381125564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in large language models (LLMs) have led to the development of new benchmarks for evaluating their performance in the financial domain. However, current financial benchmarks often rely on news articles, earnings reports, or announcements, making it challenging to capture the real-world dynamics of financial meetings. To address this gap, we propose a novel benchmark called $\texttt{M$^3$FinMeeting}$, which is a multilingual, multi-sector, and multi-task dataset designed for financial meeting understanding. First, $\texttt{M$^3$FinMeeting}$ supports English, Chinese, and Japanese, enhancing comprehension of financial discussions in diverse linguistic contexts. Second, it encompasses various industry sectors defined by the Global Industry Classification Standard (GICS), ensuring that the benchmark spans a broad range of financial activities. Finally, $\texttt{M$^3$FinMeeting}$ includes three tasks: summarization, question-answer (QA) pair extraction, and question answering, facilitating a more realistic and comprehensive evaluation of understanding. Experimental results with seven popular LLMs reveal that even the most advanced long-context models have significant room for improvement, demonstrating the effectiveness of $\texttt{M$^3$FinMeeting}$ as a benchmark for assessing LLMs' financial meeting comprehension skills.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、金融分野での性能を評価するための新しいベンチマークの開発につながっている。
しかし、現在の金融ベンチマークはニュース記事や決算報告、発表に頼っていることが多いため、財務会議の現実のダイナミクスを捉えるのは難しい。
このギャップに対処するために、金融会議理解のために設計された多言語、マルチセクタ、マルチタスクデータセットである$\texttt{M$^3$FinMeeting}$という新しいベンチマークを提案する。
まず、$\texttt{M$^3$FinMeeting}$は英語、中国語、日本語をサポートし、多様な言語文脈における金銭的議論の理解を深める。
第2に、Global Industry Classification Standard (GICS) によって定義された様々な産業分野を包含し、このベンチマークが幅広い金融活動にまたがることを保証する。
最後に$\texttt{M$^3$FinMeeting}$には、要約、質問応答(QA)ペア抽出、質問応答という3つのタスクが含まれており、より現実的で包括的な理解評価を促進する。
7つの人気のあるLLMによる実験結果から、最も先進的なロングコンテキストモデルでさえ改善の余地があり、LLMの財務会議理解スキルを評価するためのベンチマークとして$\texttt{M$^3$FinMeeting}$の有効性が示された。
関連論文リスト
- FinNLI: Novel Dataset for Multi-Genre Financial Natural Language Inference Benchmarking [7.091661099911842]
FinNLIは21,304対で構成され、財務の専門家が注釈付けした3,304インスタンスの高品質なテストセットを含んでいる。
プレトレーニング(PLM)と大規模言語モデル(LLM)の最高スコアはそれぞれ74.57%と78.62%である。
論文 参考訳(メタデータ) (2025-04-22T18:25:17Z) - FinMTEB: Finance Massive Text Embedding Benchmark [18.990655668481075]
金融分野向けに設計されたMTEBに特化して開発されたFinMTEB(FinMTEB)について紹介する。
FinMTEBは、7つのタスクにまたがる64の金融ドメイン固有の埋め込みデータセットで構成されている。
1)汎用ベンチマークのパフォーマンスは,金融ドメインタスクとの相関が限定されていること,(2)ドメイン適応モデルの方が汎用タスクより一貫して優れていること,(3)意外なことに,単純なBag-of-Wordsアプローチは,金融セマンティックテクスチャ類似タスクにおける高度に密着した埋め込みよりも優れていること,の3つの重要な結果を示す。
論文 参考訳(メタデータ) (2025-02-16T04:23:52Z) - Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。
ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。
Touchstone-GPTをオープンソースとして公開した。
論文 参考訳(メタデータ) (2024-11-09T20:09:11Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks [75.29561463156635]
ICE-PIXIUは、翻訳された英語とオリジナルの英語のデータセットとともに、中国語のタスクのスペクトルを統合する。
多様なモデル変種への無制限アクセス、多言語および多モーダル命令データのコンパイル、エキスパートアノテーションによる評価ベンチマークを提供する。
論文 参考訳(メタデータ) (2024-03-10T16:22:20Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。