論文の概要: Construction of Domain-specified Japanese Large Language Model for Finance through Continual Pre-training
- arxiv url: http://arxiv.org/abs/2404.10555v1
- Date: Tue, 16 Apr 2024 13:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:44:15.379704
- Title: Construction of Domain-specified Japanese Large Language Model for Finance through Continual Pre-training
- Title(参考訳): 継続事前学習によるドメイン特定日本語大国語モデルの構築
- Authors: Masanori Hirano, Kentaro Imajo,
- Abstract要約: 本研究は, 継続的な事前学習を通じて, 我が国の金融特化LDMを構築することを目的とする。
ベースモデルとして、日本の金融ベンチマークで最先端のパフォーマンスを達成した日本のLLMを用いた。
チューニングされたモデルは、日本の金融ベンチマークのオリジナルのモデルよりも優れたパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 1.4491649618823355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are now widely used in various fields, including finance. However, Japanese financial-specific LLMs have not been proposed yet. Hence, this study aims to construct a Japanese financial-specific LLM through continual pre-training. Before tuning, we constructed Japanese financial-focused datasets for continual pre-training. As a base model, we employed a Japanese LLM that achieved state-of-the-art performance on Japanese financial benchmarks among the 10-billion-class parameter models. After continual pre-training using the datasets and the base model, the tuned model performed better than the original model on the Japanese financial benchmarks. Moreover, the outputs comparison results reveal that the tuned model's outputs tend to be better than the original model's outputs in terms of the quality and length of the answers. These findings indicate that domain-specific continual pre-training is also effective for LLMs. The tuned model is publicly available on Hugging Face.
- Abstract(参考訳): 大規模言語モデル(LLM)は金融を含む様々な分野で広く使われている。
しかし、日本の金融特化 LLM はまだ提案されていない。
そこで本研究では,継続的な事前学習を通じて,我が国の金融特化LDMを構築することを目的とする。
学習前, 継続事前学習のための, 金融に焦点を当てたデータセットを構築した。
ベースモデルとして,10ビリオンクラスのパラメータモデルのうち,日本の金融ベンチマークにおける最先端性能を達成した日本語LLMを用いた。
データセットとベースモデルを用いて継続事前トレーニングを行った結果、チューニングされたモデルは日本の財務指標の原モデルよりも優れた性能を示した。
さらに, 出力比較の結果から, チューニングされたモデルの出力は, 回答の品質と長さの観点から, 元のモデルの出力よりも良い傾向が示された。
以上の結果から,LLMにはドメイン特異的な連続的事前トレーニングが有効であることが示唆された。
チューニングされたモデルはHugging Faceで公開されている。
関連論文リスト
- JaFIn: Japanese Financial Instruction Dataset [4.805536327976797]
本研究は,命令チューニングによる領域適応の有効性を実証する。
本研究では,日本語金融分野における大規模言語モデル(LLM)の指導データセットを構築した。
次に、 JaFIn を用いて、複数の LLM に対して命令チューニングを適用し、金融に特化したモデルが元のモデルよりもドメイン適応性が高いことを示す。
論文 参考訳(メタデータ) (2024-04-14T14:01:53Z) - Evolutionary Optimization of Model Merging Recipes [21.41838972039297]
本稿では、強力な基礎モデルの作成を自動化するための進化的アルゴリズムの新たな応用について述べる。
本稿では,様々なオープンソースモデルの効果的な組み合わせを自動的に発見することで,制限を克服する進化的アプローチを提案する。
この研究は、新しい最先端のモデルをオープンソースコミュニティに提供し、また、自動化されたモデル構成のための新しいパラダイムも導入している。
論文 参考訳(メタデータ) (2024-03-19T22:56:53Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - Large Language Model Adaptation for Financial Sentiment Analysis [2.0499240875882]
一般言語モデルは、金融に特化されたタスクでは不足する傾向にある。
1.5B未満のパラメータを持つ2つの基礎モデルは、幅広い戦略を用いて適応されている。
小型LLMは大規模モデルに匹敵する性能を有しつつ,パラメータやデータの観点からも効率がよいことを示す。
論文 参考訳(メタデータ) (2024-01-26T11:04:01Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Is ChatGPT a Financial Expert? Evaluating Language Models on Financial
Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。
本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文 参考訳(メタデータ) (2023-10-19T11:43:15Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model
for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。
ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。
私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文 参考訳(メタデータ) (2022-10-31T18:35:18Z) - LMPriors: Pre-Trained Language Models as Task-Specific Priors [78.97143833642971]
適切な事前条件でモデルを拡張するための原則的手法を開発した。
これは、世界に対する私たちの理解と相容れない方法で学ぶことを奨励するものです。
我々は,近年の大規模言語モデル(LM)の成功から着想を得た。
論文 参考訳(メタデータ) (2022-10-22T19:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。