論文の概要: An Effective Data Creation Pipeline to Generate High-quality Financial
Instruction Data for Large Language Model
- arxiv url: http://arxiv.org/abs/2308.01415v1
- Date: Mon, 31 Jul 2023 07:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:55:38.511041
- Title: An Effective Data Creation Pipeline to Generate High-quality Financial
Instruction Data for Large Language Model
- Title(参考訳): 大規模言語モデルのための高品質財務指導データを生成する効果的なデータ作成パイプライン
- Authors: Ziao Wang, Jianning Wang, Junda Wu, Xiaofeng Zhang
- Abstract要約: 本稿では,金融関連タスクのための大規模言語モデルを微調整するためのデータ生成パイプラインを提案する。
私たちは、ChatGPTを使用してAI投資家と金融専門家の対話を開始し、人間の金融専門家のフィードバックを取り入れます。
このパイプラインは、103kのマルチターンチャットからなる堅牢な命令チューニングデータセットを得た。
- 参考スコア(独自算出の注目度): 10.589742983893787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: At the beginning era of large language model, it is quite critical to
generate a high-quality financial dataset to fine-tune a large language model
for financial related tasks. Thus, this paper presents a carefully designed
data creation pipeline for this purpose. Particularly, we initiate a dialogue
between an AI investor and financial expert using ChatGPT and incorporate the
feedback of human financial experts, leading to the refinement of the dataset.
This pipeline yielded a robust instruction tuning dataset comprised of 103k
multi-turn chats. Extensive experiments have been conducted on this dataset to
evaluate the model's performance by adopting an external GPT-4 as the judge.
The promising experimental results verify that our approach led to significant
advancements in generating accurate, relevant, and financial-style responses
from AI models, and thus providing a powerful tool for applications within the
financial sector.
- Abstract(参考訳): 大規模言語モデルの初期においては、金融関連タスクのための大規模言語モデルを微調整するための高品質な財務データセットを作成することが極めて重要である。
そこで本稿では,この目的のために注意深く設計したデータ生成パイプラインを提案する。
特に、ChatGPTを使用してAI投資家と金融専門家の対話を開始し、人間の金融専門家のフィードバックを取り入れ、データセットの洗練につながる。
このパイプラインは、103kのマルチターンチャットからなるロバストな命令チューニングデータセットを生み出した。
本データセットでは,外部GPT-4を審査員として採用することにより,モデルの性能評価を行う。
有望な実験結果は、私たちのアプローチがAIモデルから正確で関連性があり、財務的な応答を生成する上で大きな進歩をもたらしたことを確認し、金融セクター内のアプリケーションに強力なツールを提供する。
関連論文リスト
- FISHNET: Financial Intelligence from Sub-querying, Harmonizing, Neural-Conditioning, Expert Swarms, and Task Planning [2.616867378362811]
FISHNETはエージェントアーキテクチャであり、98,000件以上の規制申請に対して非常に複雑な分析処理を行う。
FISHNETは、金融インサイト生成において顕著なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-25T17:53:47Z) - A Dutch Financial Large Language Model [7.443474354626664]
FinGEITjeはオランダ初の金融大規模言語モデル(LLM)で、様々な金融業務に特化して最適化されている。
我々は,自動翻訳とデータ処理手法を用いて構築した,14万以上のサンプルを用いたオランダの財務指導チューニングデータセットをリリースする。
実験の結果は、FinGEITjeの5つの重要なオランダおよびイングランドの金融業務における優れたパフォーマンスを浮き彫りにした。
論文 参考訳(メタデータ) (2024-10-03T08:38:31Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Is ChatGPT a Financial Expert? Evaluating Language Models on Financial
Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。
本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文 参考訳(メタデータ) (2023-10-19T11:43:15Z) - FinGPT: Instruction Tuning Benchmark for Open-Source Large Language
Models in Financial Datasets [9.714447724811842]
本稿では,オープンソースの大規模言語モデルに対して,インストラクションチューニングパラダイムに固有のアプローチを導入する。
私たちは、オープンソースのモデルの相互運用性に乗じて、シームレスで透過的な統合を確保します。
本稿では,エンドツーエンドのトレーニングとテストのためのベンチマーク手法を提案し,費用対効果を生かした。
論文 参考訳(メタデータ) (2023-10-07T12:52:58Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - Enabling and Analyzing How to Efficiently Extract Information from
Hybrid Long Documents with LLMs [48.87627426640621]
本研究は,財務報告から重要な情報を理解するために,大規模言語モデルの可能性を活用することに焦点を当てる。
財務報告から情報を理解し抽出するLLMの能力を高める自動財務情報抽出フレームワークを提案する。
本フレームワークは, GPT-3.5とGPT-4で有効に検証され, 平均精度は53.94%, 33.77%向上した。
論文 参考訳(メタデータ) (2023-05-24T10:35:58Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。