論文の概要: KodeXv0.1: A Family of State-of-the-Art Financial Large Language Models
- arxiv url: http://arxiv.org/abs/2409.13749v1
- Date: Fri, 13 Sep 2024 16:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:24:17.888878
- Title: KodeXv0.1: A Family of State-of-the-Art Financial Large Language Models
- Title(参考訳): KodeXv0.1: 最先端の金融大規模言語モデルファミリー
- Authors: Neel Rajani, Lilli Kiessling, Aleksandr Ogaltsov, Claus Lang,
- Abstract要約: KodeXv0.1は、金融質問応答においてGPT-4を抜いた大規模な言語モデルのファミリーである。
我々は、決算報告や事業報告など、多くの公開財務文書を処理します。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although powerful, current cutting-edge LLMs may not fulfil the needs of highly specialised sectors. We introduce KodeXv0.1, a family of large language models that outclass GPT-4 in financial question answering. We utilise the base variants of Llama 3.1 8B and 70B and adapt them to the financial domain through a custom training regime. To this end, we collect and process a large number of publicly available financial documents such as earnings calls and business reports. These are used to generate a high-quality, synthetic dataset consisting of Context-Question-Answer triplets which closely mirror real-world financial tasks. Using the train split of this dataset, we perform RAG-aware 4bit LoRA instruction tuning runs of Llama 3.1 base variants to produce KodeX-8Bv0.1 and KodeX-70Bv0.1. We then complete extensive model evaluations using FinanceBench, FinQABench and the withheld test split of our dataset. Our results show that KodeX-8Bv0.1 is more reliable in financial contexts than cutting-edge instruct models in the same parameter regime, surpassing them by up to 9.24%. In addition, it is even capable of outperforming state-of-the-art proprietary models such as GPT-4 by up to 7.07%. KodeX-70Bv0.1 represents a further improvement upon this, exceeding GPT-4's performance on every tested benchmark.
- Abstract(参考訳): 現在の最先端のLDMは強力ではあるが、高度に専門化されたセクターのニーズを満たすには至らない。
我々は,財務質問応答において GPT-4 を超越した大規模言語モデルである KodeXv0.1 を紹介する。
我々は、Llama 3.1 8B と 70B の基本的な変種を利用して、カスタムトレーニングシステムを通じて金融分野に適応する。
この目的のために、収支報告や事業報告など、多数の公開財務文書を収集し、処理する。
これらのデータセットはContext-Question-Answer三重項からなる高品質な合成データセットを生成するために使用され、現実世界の財務業務を密接に反映している。
このデータセットの列車分割を用いて、Llama 3.1 の 4bit LoRA 命令チューニングを実行し、KodeX-8Bv0.1 と KodeX-70Bv0.1 を生成する。
次に、ファイナンスベンチ、FinQABench、および保持できないデータセットのテスト分割を使用して、広範囲なモデル評価を完了します。
以上の結果から,KodeX-8Bv0.1は,同じパラメータ系における最先端のインストラクションモデルよりも経済的に信頼性が高く,最大9.24%以上であることがわかった。
さらに、GPT-4のような最先端のプロプライエタリモデルよりも最大7.07%性能が向上する。
KodeX-70Bv0.1は、テストされたベンチマーク毎にGPT-4のパフォーマンスを上回る、さらなる改善を示している。
関連論文リスト
- Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - CryptoGPT: a 7B model rivaling GPT-4 in the task of analyzing and classifying real-time financial news [3.8447306272420816]
本稿では,CryptoGPTによる産業環境における限られた資源で,適切な品質のLLMを精製する手法を提案する。
このモデルでは、財務情報の分類だけでなく、包括的な分析も可能である。
論文 参考訳(メタデータ) (2024-06-20T06:59:46Z) - StructLM: Towards Building Generalist Models for Structured Knowledge Grounding [49.10029030628653]
大規模言語モデル(LLM)では、最先端(SoTA)モデルの背後にある構造化データラグを平均35%処理できる。
私たちは、MistralとCodeLlamaモデルファミリに基づいたStructLMと呼ばれる一連のモデルをトレーニングします。
我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-02-26T15:47:01Z) - FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [18.280762424107408]
FinTralは、Mistral-7bモデルに基づいて構築された、最先端のマルチモーダル言語モデル(LLM)のスイートである。
我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。
我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
論文 参考訳(メタデータ) (2024-02-16T05:05:12Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - CFGPT: Chinese Financial Assistant with Large Language Model [21.54229667774752]
CFGPTと命名された中国の金融生成事前学習型トランスフォーマフレームワークを提案する。
CFDataは、事前トレーニングデータセットと教師付き微調整データセットの両方で構成されている。
CFLLMはCFDataで2段階の訓練を受け、事前訓練と微調整を継続する。
論文 参考訳(メタデータ) (2023-09-19T14:34:01Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - BloombergGPT: A Large Language Model for Finance [42.73350054822628]
我々は、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを提示する。
Bloombergの広範囲なデータソースに基づいて,汎用データセットから345億のトークンを付加した,363億のトークンデータセットを構築しました。
我々の混合データセットトレーニングは、財務タスクにおける既存のモデルをかなりのマージンで上回るモデルにつながります。
論文 参考訳(メタデータ) (2023-03-30T17:30:36Z) - Predicting Issue Types with seBERT [85.74803351913695]
seBERT は BERT アーキテクチャに基づいて開発されたモデルであるが、ゼロからソフトウェア工学のデータで訓練された。
問題型予測の課題に対して,NLBSEの課題に対して,このモデルを微調整した。
我々のモデルは、リコールとプリシシオの3つのイシュータイプすべてに対して、F1スコア全体の85.7%を達成するためのベースラインであるfastTextを支配している。
論文 参考訳(メタデータ) (2022-05-03T06:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。