Fugu-MT 論文翻訳(概要): Shai: A large language model for asset management

論文の概要: Shai: A large language model for asset management

arxiv url: http://arxiv.org/abs/2312.14203v1
Date: Thu, 21 Dec 2023 05:08:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 17:24:24.126082
Title: Shai: A large language model for asset management
Title（参考訳）: Shai: 資産管理のための大規模言語モデル
Authors: Zhongyang Guo, Guanran Jiang, Zhongdan Zhang, Peng Li, Zhefeng Wang, and Yinchun Wang
Abstract要約: 「シャイ」は資産管理産業向けに特別に設計された10Bレベルの大規模言語モデルである。 Shaiはドメインに関連するタスクのパフォーマンスを向上し、ベースラインモデルを上回っている。
参考スコア（独自算出の注目度）: 8.655934598732973
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces "Shai" a 10B level large language model specifically designed for the asset management industry, built upon an open-source foundational model. With continuous pre-training and fine-tuning using a targeted corpus, Shai demonstrates enhanced performance in tasks relevant to its domain, outperforming baseline models. Our research includes the development of an innovative evaluation framework, which integrates professional qualification exams, tailored tasks, open-ended question answering, and safety assessments, to comprehensively assess Shai's capabilities. Furthermore, we discuss the challenges and implications of utilizing large language models like GPT-4 for performance assessment in asset management, suggesting a combination of automated evaluation and human judgment. Shai's development, showcasing the potential and versatility of 10B-level large language models in the financial sector with significant performance and modest computational requirements, hopes to provide practical insights and methodologies to assist industry peers in their similar endeavors.
Abstract（参考訳）: 本稿では,オープンソースの基盤モデルを基に,資産管理産業に特化した10bレベルの大規模言語モデルであるshaiについて紹介する。ターゲットコーパスを使用した継続的事前トレーニングと微調整により、Shaiはドメインに関連するタスクのパフォーマンスを向上し、ベースラインモデルを上回っている。本研究は,シャイの能力を総合的に評価するために,専門的資格試験,調整作業,オープンエンド質問応答,安全評価を統合した革新的評価枠組みの開発を含む。さらに、資産管理におけるパフォーマンス評価にGPT-4のような大規模言語モデルを活用することの課題と意義について考察し、自動評価と人的判断の組み合わせを提案する。シャイの開発は、金融セクターにおける10Bレベルの大規模言語モデルの可能性と汎用性を、大きなパフォーマンスと控えめな計算要件で示しており、同様の取り組みで業界の仲間を支援するための実践的な洞察と方法論を提供したいと考えている。

関連論文リスト

Design, Results and Industry Implications of the World's First Insurance Large Language Model Evaluation Benchmark [9.636604321949322]
本稿では,CUFEInse v1.0の構築手法,多次元評価システム,基礎となる設計思想について詳述する。 11の主流大言語モデルに対して総合的な評価を行った。
論文参考訳（メタデータ） (2025-11-11T03:19:35Z)
Automated Capability Evaluation of Foundation Models [0.0]
Active Learning for Capability Evaluation (ACE)は、基盤モデルのスケーラブルで自動化された、きめ細かい評価のための新しいフレームワークである。カバレッジと効率を最大化するために、ACEは被写体モデルの性能を潜在意味空間上の機能関数としてモデル化する。この適応評価戦略は、静的ベンチマークが見逃す可能性のある強度、弱点、障害モードのコスト効率の良い発見を可能にする。
論文参考訳（メタデータ） (2025-05-22T19:09:57Z)
The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.23208165760114]
ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
論文参考訳（メタデータ） (2024-06-24T15:55:49Z)
Can I understand what I create? Self-Knowledge Evaluation of Large Language Models [31.85129258347539]
大規模言語モデル(LLM)は言語タスクにおいて顕著な進歩を遂げた。フェインマンの創造を通して理解する原理に触発され、自己知識評価フレームワークを導入する。
論文参考訳（メタデータ） (2024-06-10T09:53:54Z)
FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文参考訳（メタデータ） (2024-04-29T01:49:07Z)
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文参考訳（メタデータ） (2024-03-13T07:31:20Z)
FinGPT: Instruction Tuning Benchmark for Open-Source Large Language Models in Financial Datasets [9.714447724811842]
本稿では,オープンソースの大規模言語モデルに対して,インストラクションチューニングパラダイムに固有のアプローチを導入する。私たちは、オープンソースのモデルの相互運用性に乗じて、シームレスで透過的な統合を確保します。本稿では,エンドツーエンドのトレーニングとテストのためのベンチマーク手法を提案し,費用対効果を生かした。
論文参考訳（メタデータ） (2023-10-07T12:52:58Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。学術分野にまたがる大規模な中国語モデルの生成能力を評価する。 Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文参考訳（メタデータ） (2023-08-09T09:22:56Z)
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文参考訳（メタデータ） (2023-06-07T20:12:29Z)
Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation [12.86275938443485]
本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。 GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
論文参考訳（メタデータ） (2023-04-16T18:37:39Z)
Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。 MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文参考訳（メタデータ） (2022-03-05T14:15:59Z)
RADDLE: An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。 RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-29T08:58:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。