論文の概要: Shai: A large language model for asset management
- arxiv url: http://arxiv.org/abs/2312.14203v1
- Date: Thu, 21 Dec 2023 05:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:24:24.126082
- Title: Shai: A large language model for asset management
- Title(参考訳): Shai: 資産管理のための大規模言語モデル
- Authors: Zhongyang Guo, Guanran Jiang, Zhongdan Zhang, Peng Li, Zhefeng Wang,
and Yinchun Wang
- Abstract要約: 「シャイ」は資産管理産業向けに特別に設計された10Bレベルの大規模言語モデルである。
Shaiはドメインに関連するタスクのパフォーマンスを向上し、ベースラインモデルを上回っている。
- 参考スコア(独自算出の注目度): 8.655934598732973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces "Shai" a 10B level large language model specifically
designed for the asset management industry, built upon an open-source
foundational model. With continuous pre-training and fine-tuning using a
targeted corpus, Shai demonstrates enhanced performance in tasks relevant to
its domain, outperforming baseline models. Our research includes the
development of an innovative evaluation framework, which integrates
professional qualification exams, tailored tasks, open-ended question
answering, and safety assessments, to comprehensively assess Shai's
capabilities. Furthermore, we discuss the challenges and implications of
utilizing large language models like GPT-4 for performance assessment in asset
management, suggesting a combination of automated evaluation and human
judgment. Shai's development, showcasing the potential and versatility of
10B-level large language models in the financial sector with significant
performance and modest computational requirements, hopes to provide practical
insights and methodologies to assist industry peers in their similar endeavors.
- Abstract(参考訳): 本稿では,オープンソースの基盤モデルを基に,資産管理産業に特化した10bレベルの大規模言語モデルであるshaiについて紹介する。
ターゲットコーパスを使用した継続的事前トレーニングと微調整により、Shaiはドメインに関連するタスクのパフォーマンスを向上し、ベースラインモデルを上回っている。
本研究は,シャイの能力を総合的に評価するために,専門的資格試験,調整作業,オープンエンド質問応答,安全評価を統合した革新的評価枠組みの開発を含む。
さらに、資産管理におけるパフォーマンス評価にGPT-4のような大規模言語モデルを活用することの課題と意義について考察し、自動評価と人的判断の組み合わせを提案する。
シャイの開発は、金融セクターにおける10Bレベルの大規模言語モデルの可能性と汎用性を、大きなパフォーマンスと控えめな計算要件で示しており、同様の取り組みで業界の仲間を支援するための実践的な洞察と方法論を提供したいと考えている。
関連論文リスト
- The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.23208165760114]
ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。
責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
論文 参考訳(メタデータ) (2024-06-24T15:55:49Z) - Can I understand what I create? Self-Knowledge Evaluation of Large Language Models [31.85129258347539]
大規模言語モデル(LLM)は言語タスクにおいて顕著な進歩を遂げた。
フェインマンの創造を通して理解する原理に触発され、自己知識評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-10T09:53:54Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文 参考訳(メタデータ) (2024-03-13T07:31:20Z) - FinGPT: Instruction Tuning Benchmark for Open-Source Large Language
Models in Financial Datasets [9.714447724811842]
本稿では,オープンソースの大規模言語モデルに対して,インストラクションチューニングパラダイムに固有のアプローチを導入する。
私たちは、オープンソースのモデルの相互運用性に乗じて、シームレスで透過的な統合を確保します。
本稿では,エンドツーエンドのトレーニングとテストのためのベンチマーク手法を提案し,費用対効果を生かした。
論文 参考訳(メタデータ) (2023-10-07T12:52:58Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - Towards Better Instruction Following Language Models for Chinese:
Investigating the Impact of Training Data and Evaluation [12.86275938443485]
本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。
GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
論文 参考訳(メタデータ) (2023-04-16T18:37:39Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。