Fugu-MT 論文翻訳(概要): Efficient Continual Pre-training for Building Domain Specific Large Language Models

論文の概要: Efficient Continual Pre-training for Building Domain Specific Large Language Models

arxiv url: http://arxiv.org/abs/2311.08545v1
Date: Tue, 14 Nov 2023 21:19:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 18:18:12.415245
Title: Efficient Continual Pre-training for Building Domain Specific Large Language Models
Title（参考訳）: ドメイン特化大規模言語モデル構築のための高能率連続事前学習
Authors: Yong Xie, Karan Aggarwal, Aitzaz Ahmad
Abstract要約: 大規模言語モデル(LLM)は、驚くべきオープンドメイン機能を示している。伝統的に、ドメイン用に調整されたLLMは、ドメイン固有のタスクを扱うために、ゼロから訓練される。ファイナンシャルドメイン上でのドメイン適応型継続事前トレーニングにより開発されたFinPythia-6.9Bを紹介する。
参考スコア（独自算出の注目度）: 8.799785664150255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated remarkable open-domain capabilities. Traditionally, LLMs tailored for a domain are trained from scratch to excel at handling domain-specific tasks. In this work, we explore an alternative strategy of continual pre-training as a means to develop domain-specific LLMs. We introduce FinPythia-6.9B, developed through domain-adaptive continual pre-training on the financial domain. Continual pre-trained FinPythia showcases consistent improvements on financial tasks over the original foundational model. We further explore simple but effective data selection strategies for continual pre-training. Our data selection strategies outperforms vanilla continual pre-training's performance with just 10% of corpus size and cost, without any degradation on open-domain standard tasks. Our work proposes an alternative solution to building domain-specific LLMs from scratch in a cost-effective manner.
Abstract（参考訳）: 大規模言語モデル(llm)は驚くべきオープンドメイン機能を示している。伝統的に、ドメインに適したLLMは、ドメイン固有のタスクを扱うために、ゼロから訓練される。本研究では,ドメイン固有のLLMを開発する手段として,継続事前学習の代替戦略を検討する。金融分野におけるドメイン適応型継続的事前学習により開発されたfinpythia-6.9bについて紹介する。トレーニング済みのFinPythiaは、オリジナルの基盤モデルよりも、財務上のタスクが一貫した改善を見せる。さらに,継続的な事前学習のための簡易かつ効果的なデータ選択戦略について検討する。私たちのデータ選択戦略は、オープンドメインの標準タスクを損なうことなく、コーパスサイズとコストのわずか10%で、バニラ連続事前トレーニングのパフォーマンスを上回っています。本研究は,ドメイン固有LLMをスクラッチからコスト効率よく構築するための代替ソリューションを提案する。

関連論文リスト

LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
Demystifying Domain-adaptive Post-training for Financial LLMs [79.581577578952]
FINDAPは、大規模言語モデル(LLM)のドメイン適応後学習に関する体系的できめ細かな研究であるこのアプローチは、FinCap、FinRec、FinTrain、FinEvalの4つの重要なコンポーネントで構成されています。結果として得られるモデルであるLlama-Finは、幅広い財務タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-01-09T04:26:15Z)
On Domain-Adaptive Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining [2.1534028009401713]
大規模言語モデル(LLM)は、多くの業界領域で効果的に一般化する能力を示している。 LLMは、専門分野や低リソース産業領域での業務を行う際の制限を示す。本研究では,シードガイドデータマイニングによるDoPAMine:Domain固有の事前トレーニング適応を提案する。
論文参考訳（メタデータ） (2024-09-30T22:15:58Z)
Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文参考訳（メタデータ） (2024-09-27T05:06:43Z)
BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。 BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文参考訳（メタデータ） (2024-03-27T08:57:21Z)
Investigating Continual Pretraining in Large Language Models: Insights and Implications [9.591223887442704]
本稿では,大規模言語モデル(LLM)における継続学習の進化領域について考察する。我々の主な重点は、LLMに様々なドメインからの新たな情報を統合する能力を持たせるために設計された、連続的なドメイン適応型事前訓練である。モデルサイズが学習の効率性や忘れに及ぼす影響や、新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
論文参考訳（メタデータ） (2024-02-27T10:47:24Z)
EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文参考訳（メタデータ） (2023-12-25T11:31:47Z)
KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文参考訳（メタデータ） (2022-04-22T08:11:59Z)
Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文参考訳（メタデータ） (2021-06-25T07:37:05Z)
Source-Free Open Compound Domain Adaptation in Semantic Segmentation [99.82890571842603]
SF-OCDAでは、ターゲットモデルを学習するために、ソース事前訓練されたモデルとターゲットデータのみが利用可能である。そこで我々は,Cross-Patch Style Swap (CPSS)を提案する。提案手法は,C-Drivingデータセット上で最先端の結果を生成する。
論文参考訳（メタデータ） (2021-06-07T08:38:41Z)
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文参考訳（メタデータ） (2020-04-23T04:21:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。