論文の概要: FinLLMs: A Framework for Financial Reasoning Dataset Generation with
Large Language Models
- arxiv url: http://arxiv.org/abs/2401.10744v1
- Date: Fri, 19 Jan 2024 15:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:33:54.891577
- Title: FinLLMs: A Framework for Financial Reasoning Dataset Generation with
Large Language Models
- Title(参考訳): FinLLMs: 大規模言語モデルを用いた金融推論データセット生成フレームワーク
- Authors: Ziqiang Yuan, Kaiyuan Wang, Shoutai Zhu, Ye Yuan, Jingya Zhou, Yanlin
Zhu, Wenqi Wei
- Abstract要約: FinLLMs は,大規模言語モデルを用いた共通財務式に基づく財務質問応答データを生成する手法である。
本研究では、FinLLMsによって生成された合成データが、金融分野における大規模数値推論モデルの性能を効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 12.367548338910744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language models (LLMs) usually rely on extensive training datasets. In
the financial domain, creating numerical reasoning datasets that include a mix
of tables and long text often involves substantial manual annotation expenses.
To address the limited data resources and reduce the annotation cost, we
introduce FinLLMs, a method for generating financial question-answering data
based on common financial formulas using Large Language Models. First, we
compile a list of common financial formulas and construct a graph based on the
variables these formulas employ. We then augment the formula set by combining
those that share identical variables as new elements. Specifically, we explore
formulas obtained by manual annotation and merge those formulas with shared
variables by traversing the constructed graph. Finally, utilizing GPT-3.5, we
generate financial question-answering data that encompasses both tabular
information and long textual content, building on the collected formula set.
Our experiments demonstrate that synthetic data generated by FinLLMs
effectively enhances the performance of several large-scale numerical reasoning
models in the financial domain, outperforming two established benchmark
financial question-answering datasets.
- Abstract(参考訳): 大規模言語モデル(llm)は通常、広範なトレーニングデータセットに依存する。
金融分野において、テーブルと長いテキストの混合を含む数値推論データセットの作成には、多くの場合、かなりの手動のアノテーション費用がかかる。
限られたデータ資源に対処し、アノテーションコストを削減すべく、大言語モデルを用いた共通金融公式に基づく財務質問応答データを生成するfinllmsを紹介する。
まず、共通の財務公式のリストをコンパイルし、これらの公式が採用する変数に基づいてグラフを構築する。
次に、同一変数を共有する変数を新しい要素として組み合わせることで、式集合を補足する。
具体的には, 手動アノテーションによって得られた公式を探索し, 構築したグラフを横断することにより, それらの式を共有変数にマージする。
最後に、gpt-3.5を利用して表情報と長文コンテンツの両方を包含する財務的質問応答データを生成する。
実験の結果,FinLLMsが生成した合成データにより,金融分野における大規模数値推論モデルの性能が向上することが確認された。
関連論文リスト
- SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - Large Language Model Adaptation for Financial Sentiment Analysis [2.0499240875882]
一般言語モデルは、金融に特化されたタスクでは不足する傾向にある。
1.5B未満のパラメータを持つ2つの基礎モデルは、幅広い戦略を用いて適応されている。
小型LLMは大規模モデルに匹敵する性能を有しつつ,パラメータやデータの観点からも効率がよいことを示す。
論文 参考訳(メタデータ) (2024-01-26T11:04:01Z) - DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - FinDiff: Diffusion Models for Financial Tabular Data Generation [5.824064631226058]
FinDiffは、さまざまな規制下流タスクのための現実世界の財務データを生成するために設計された拡散モデルである。
3つの実世界の財務データセットを用いて、最先端のベースラインモデルに対して評価される。
論文 参考訳(メタデータ) (2023-09-04T09:30:15Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - Benchmarking Diverse-Modal Entity Linking with Generative Models [78.93737257356784]
既存の EL データセットから様々なモード EL (DMEL) のベンチマークを構築した。
DMEL タスクにアプローチするため,マルチモーダルエンコーダ・デコーダのパラダイムに則って生成多モードモデル (GDMM) を提案する。
GDMMは、より強力なDMELベースラインを構築し、平均8.51F1スコアで最先端のタスク固有のELモデルを上回っている。
論文 参考訳(メタデータ) (2023-05-27T02:38:46Z) - REFinD: Relation Extraction Financial Dataset [7.207699035400335]
提案するREFinDは,$sim$29Kのインスタンスと8種類のエンティティペア間の22のリレーションを持つ,最初の大規模アノテートされた関係データセットである。
様々な最先端ディープラーニングモデルが,数値推論,関係性,方向性のあいまいさに悩まされていることを観察した。
論文 参考訳(メタデータ) (2023-05-22T22:40:11Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z) - Gaussian process imputation of multiple financial series [71.08576457371433]
金融指標、株価、為替レートなどの複数の時系列は、市場が潜んでいる状態に依存しているため、強く結びついている。
金融時系列間の関係を多出力ガウスプロセスでモデル化することで学習することに注力する。
論文 参考訳(メタデータ) (2020-02-11T19:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。