論文の概要: Construction of Domain-specified Japanese Large Language Model for Finance through Continual Pre-training
- arxiv url: http://arxiv.org/abs/2404.10555v1
- Date: Tue, 16 Apr 2024 13:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:44:15.379704
- Title: Construction of Domain-specified Japanese Large Language Model for Finance through Continual Pre-training
- Title(参考訳): 継続事前学習によるドメイン特定日本語大国語モデルの構築
- Authors: Masanori Hirano, Kentaro Imajo,
- Abstract要約: 本研究は, 継続的な事前学習を通じて, 我が国の金融特化LDMを構築することを目的とする。
ベースモデルとして、日本の金融ベンチマークで最先端のパフォーマンスを達成した日本のLLMを用いた。
チューニングされたモデルは、日本の金融ベンチマークのオリジナルのモデルよりも優れたパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 1.4491649618823355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are now widely used in various fields, including finance. However, Japanese financial-specific LLMs have not been proposed yet. Hence, this study aims to construct a Japanese financial-specific LLM through continual pre-training. Before tuning, we constructed Japanese financial-focused datasets for continual pre-training. As a base model, we employed a Japanese LLM that achieved state-of-the-art performance on Japanese financial benchmarks among the 10-billion-class parameter models. After continual pre-training using the datasets and the base model, the tuned model performed better than the original model on the Japanese financial benchmarks. Moreover, the outputs comparison results reveal that the tuned model's outputs tend to be better than the original model's outputs in terms of the quality and length of the answers. These findings indicate that domain-specific continual pre-training is also effective for LLMs. The tuned model is publicly available on Hugging Face.
- Abstract(参考訳): 大規模言語モデル(LLM)は金融を含む様々な分野で広く使われている。
しかし、日本の金融特化 LLM はまだ提案されていない。
そこで本研究では,継続的な事前学習を通じて,我が国の金融特化LDMを構築することを目的とする。
学習前, 継続事前学習のための, 金融に焦点を当てたデータセットを構築した。
ベースモデルとして,10ビリオンクラスのパラメータモデルのうち,日本の金融ベンチマークにおける最先端性能を達成した日本語LLMを用いた。
データセットとベースモデルを用いて継続事前トレーニングを行った結果、チューニングされたモデルは日本の財務指標の原モデルよりも優れた性能を示した。
さらに, 出力比較の結果から, チューニングされたモデルの出力は, 回答の品質と長さの観点から, 元のモデルの出力よりも良い傾向が示された。
以上の結果から,LLMにはドメイン特異的な連続的事前トレーニングが有効であることが示唆された。
チューニングされたモデルはHugging Faceで公開されている。
関連論文リスト
- Enhancing Financial Domain Adaptation of Language Models via Model Augmentation [2.9960693856871545]
本研究は、金融分野への適応における言語モデル(CALM)の構成の有効性を実証する。
我々は,強力な応答機能を有するLCMの財務性能を向上させるためのCALMを開発した。
論文 参考訳(メタデータ) (2024-11-14T07:28:09Z) - Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。
我々はこの目的のために特別に設計されたアプローチである我々の提案する。
人類の専門家や 先進的なモデルによるデータに依存する 従来のアプローチと比べて 優れたパフォーマンスを達成しています
論文 参考訳(メタデータ) (2024-11-12T19:53:00Z) - BreakGPT: Leveraging Large Language Models for Predicting Asset Price Surges [55.2480439325792]
本稿では,時系列予測や資産価格の急上昇の予測に特化して,新たな大規模言語モデル(LLM)アーキテクチャであるBreakGPTを紹介する。
我々は、最小限のトレーニングで財務予測を行うための有望なソリューションとしてBreakGPTを紹介し、局所的およびグローバルな時間的依存関係をキャプチャする強力な競合相手として紹介する。
論文 参考訳(メタデータ) (2024-11-09T05:40:32Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - JaFIn: Japanese Financial Instruction Dataset [4.805536327976797]
本研究は,命令チューニングによる領域適応の有効性を実証する。
本研究では,日本語金融分野における大規模言語モデル(LLM)の指導データセットを構築した。
次に、 JaFIn を用いて、複数の LLM に対して命令チューニングを適用し、金融に特化したモデルが元のモデルよりもドメイン適応性が高いことを示す。
論文 参考訳(メタデータ) (2024-04-14T14:01:53Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - Large Language Model Adaptation for Financial Sentiment Analysis [2.0499240875882]
一般言語モデルは、金融に特化されたタスクでは不足する傾向にある。
1.5B未満のパラメータを持つ2つの基礎モデルは、幅広い戦略を用いて適応されている。
小型LLMは大規模モデルに匹敵する性能を有しつつ,パラメータやデータの観点からも効率がよいことを示す。
論文 参考訳(メタデータ) (2024-01-26T11:04:01Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model
for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。
ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。
私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文 参考訳(メタデータ) (2022-10-31T18:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。