Fugu-MT 論文翻訳(概要): FinNLI: Novel Dataset for Multi-Genre Financial Natural Language Inference Benchmarking

論文の概要: FinNLI: Novel Dataset for Multi-Genre Financial Natural Language Inference Benchmarking

arxiv url: http://arxiv.org/abs/2504.16188v1
Date: Tue, 22 Apr 2025 18:25:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:52.890718
Title: FinNLI: Novel Dataset for Multi-Genre Financial Natural Language Inference Benchmarking
Title（参考訳）: FinNLI: マルチ世代財務自然言語推論ベンチマークのための新しいデータセット
Authors: Jabez Magomere, Elena Kochkina, Samuel Mensah, Simerjot Kaur, Charese H. Smiley,
Abstract要約: FinNLIは21,304対で構成され、財務の専門家が注釈付けした3,304インスタンスの高品質なテストセットを含んでいる。プレトレーニング(PLM)と大規模言語モデル(LLM)の最高スコアはそれぞれ74.57%と78.62%である。
参考スコア（独自算出の注目度）: 7.091661099911842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce FinNLI, a benchmark dataset for Financial Natural Language Inference (FinNLI) across diverse financial texts like SEC Filings, Annual Reports, and Earnings Call transcripts. Our dataset framework ensures diverse premise-hypothesis pairs while minimizing spurious correlations. FinNLI comprises 21,304 pairs, including a high-quality test set of 3,304 instances annotated by finance experts. Evaluations show that domain shift significantly degrades general-domain NLI performance. The highest Macro F1 scores for pre-trained (PLMs) and large language models (LLMs) baselines are 74.57% and 78.62%, respectively, highlighting the dataset's difficulty. Surprisingly, instruction-tuned financial LLMs perform poorly, suggesting limited generalizability. FinNLI exposes weaknesses in current LLMs for financial reasoning, indicating room for improvement.
Abstract（参考訳）: FinNLIは、SEC Filings、年次報告書、Earnings Call transcriptsなどのさまざまな財務文書にまたがる金融自然言語推論(FinNLI)のベンチマークデータセットである。我々のデータセットフレームワークは、突発的な相関を最小化しながら、多様な前提と仮説のペアを保証する。 FinNLIは21,304対で構成され、財務の専門家が注釈付けした3,304インスタンスの高品質なテストセットを含んでいる。評価の結果,ドメインシフトは一般ドメインNLIの性能を著しく低下させることが示された。プレトレーニング(PLM)と大規模言語モデル(LLM)の最高スコアはそれぞれ74.57%と78.62%であり、データセットの難しさを強調している。驚くべきことに、命令調整型金融LLMは性能が悪く、限定的な一般化性が示唆されている。 FinNLIは、財政的推論のための現在のLLMの弱点を明らかにし、改善の余地を示している。

関連論文リスト

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.73542209537148]
MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
論文参考訳（メタデータ） (2025-06-16T22:01:49Z)
M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset [18.752133381125564]
$texttM$3$FinMeeting$は、財務会議の理解のために設計された、多言語、マルチセクタ、マルチタスクのデータセットである。まず、英語、中国語、日本語をサポートし、多様な言語文脈における金銭的議論の理解を深める。第2に、グローバル産業分類基準(GICS)が定める様々な産業分野を包含する。第3に、要約、質問回答(QA)ペア抽出、質問応答という3つのタスクが含まれており、より現実的で包括的な理解評価を促進する。
論文参考訳（メタデータ） (2025-06-03T06:41:09Z)
FinBERT2: A Specialized Bidirectional Encoder for Bridging the Gap in Finance-Specific Deployment of Large Language Models [24.430050834440998]
FinBERT2は、32bトークンの高品質な財務特化コーパスで事前訓練された、特殊な双方向エンコーダである。差別的微調整モデル(Fin-Labelers)は、他の(Fin)BERTモデルよりも0.4%-3.3%、LLMを9.7%-12.3%、財務分類5つのタスクで上回っている。 Fin-TopicModelは、金融タイトルの優れたクラスタリングとトピック表現を可能にする。
論文参考訳（メタデータ） (2025-05-31T13:59:44Z)
FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。 FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文参考訳（メタデータ） (2025-05-18T11:47:55Z)
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。 FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文参考訳（メタデータ） (2024-08-20T16:15:28Z)
SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。 SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。 SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文参考訳（メタデータ） (2024-08-05T08:24:24Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
NumLLM: Numeric-Sensitive Large Language Model for Chinese Finance [15.662858834827444]
FinLLMは、数値変数が質問に関わったとき、財務文書を理解するのに不満足な性能を示す。中国語金融のための数値感性大言語モデル(NumLLM)を提案する。ファイナンシャル質問答えベンチマークの実験では、NumLLMが基礎モデルの性能を向上させることが示されている。
論文参考訳（メタデータ） (2024-05-01T15:17:27Z)
AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文参考訳（メタデータ） (2024-03-19T09:45:33Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。 7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。 FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文参考訳（メタデータ） (2024-02-12T04:50:31Z)
Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文参考訳（メタデータ） (2023-10-19T11:43:15Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。