論文の概要: EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data
- arxiv url: http://arxiv.org/abs/2312.15696v1
- Date: Mon, 25 Dec 2023 11:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:52:44.359338
- Title: EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data
- Title(参考訳): EcomGPT-CT:半構造化データを用いたEコマース大規模言語モデルの継続的な事前学習
- Authors: Shirong Ma, Shen Huang, Shulin Huang, Xiaobin Wang, Yangning Li,
Hai-Tao Zheng, Pengjun Xie, Fei Huang and Yong Jiang
- Abstract要約: 大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
- 参考スコア(独自算出の注目度): 67.8302955948861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) pre-trained on massive corpora have exhibited
remarkable performance on various NLP tasks. However, applying these models to
specific domains still poses significant challenges, such as lack of domain
knowledge, limited capacity to leverage domain knowledge and inadequate
adaptation to domain-specific data formats. Considering the exorbitant cost of
training LLMs from scratch and the scarcity of annotated data within particular
domains, in this work, we focus on domain-specific continual pre-training of
LLMs using E-commerce domain as an exemplar. Specifically, we explore the
impact of continual pre-training on LLMs employing unlabeled general and
E-commercial corpora. Furthermore, we design a mixing strategy among different
data sources to better leverage E-commercial semi-structured data. We construct
multiple tasks to assess LLMs' few-shot In-context Learning ability and their
zero-shot performance after instruction tuning in E-commerce domain.
Experimental results demonstrate the effectiveness of continual pre-training of
E-commerce LLMs and the efficacy of our devised data mixing strategy.
- Abstract(参考訳): 大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
しかし、これらのモデルを特定のドメインに適用することは、ドメイン知識の欠如、ドメイン知識を活用する能力の制限、ドメイン固有のデータフォーマットへの不適切な適応など、依然として重大な課題を生んでいる。
本研究は,LLMをスクラッチからトレーニングする余剰コストと,特定のドメイン内の注釈付きデータの不足を考慮して,Eコマースドメインを例に,LLMのドメイン固有の継続事前トレーニングに着目した。
具体的には,ラベルなし一般コーパスとe-commercialコーパスを用いたllmへの継続的な事前トレーニングの影響について検討する。
さらに,e-commercial semi-structured dataをより活用するために,異なるデータソース間の混合戦略を設計する。
電子商取引分野における命令チューニング後のllmsの学習能力とゼロショット性能を評価するために,複数のタスクを構築した。
実験結果は,eコマースllmの継続的な事前学習の有効性と,提案するデータ混合戦略の有効性を示す。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - A Practical Guide to Fine-tuning Language Models with Limited Data [9.413178499853156]
事前訓練されたLarge Language Models (LLM) を採用することは、膨大なデータ要件にもかかわらず、自然言語処理(NLP)における事実上の標準となっている。
限られたデータを用いたLLMの学習に焦点をあてた最近の研究の急増に触発された本研究では、データ不足の下流タスクにおけるモデル性能を最適化するための、近年のトランスファー学習アプローチについて調査する。
論文 参考訳(メタデータ) (2024-11-14T15:55:37Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Investigating LLM Applications in E-Commerce [17.854070801235217]
大規模言語モデル(LLM)は、特にeコマースにおける様々なアプリケーションにおける自然言語処理に革命をもたらした。
本稿では,電子商取引分野におけるLLMの有効性を考察し,様々な規模の公開電子商取引データセットを用いたオープンソースのLLMモデルの構築に焦点をあてる。
電子商取引特化業務において,テキスト内学習を用いた大規模LLMのニッチ産業応用の有効性について検討した。
論文 参考訳(メタデータ) (2024-08-23T00:57:37Z) - PISTOL: Dataset Compilation Pipeline for Structural Unlearning of LLMs [31.16117964915814]
訓練済みまたは微調整済みのモデルに格納された特定のデータを消去しようとする機械学習は、LLMにとって重要な保護措置として登場した。
構造的アンラーニング手法の開発を容易にするため,マルチシナリオデータセットをコンパイルするパイプラインであるPISTOLを提案する。
Llama2-7BモデルとMistral-7Bモデルの両方で4つの異なる未学習手法を用いてベンチマークを行う。
論文 参考訳(メタデータ) (2024-06-24T17:22:36Z) - Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts [49.950419707905944]
本稿では,モノリシックLLMを,自己専門化の専門家による構成的,モジュール的なシステムに変換するアプローチであるSelf-MoEを紹介する。
提案手法は, 自己生成合成データを用いて, 専門家モジュールを構成する自己特殊化を利用する。
本研究は, モジュール性の重要性, マルチベースLCMへの適用性, 効率的でスケーラブルで適応可能なシステムの実現における自己改善の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-17T19:06:54Z) - Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data [53.70870879858533]
フェデレートされたドメイン固有の知識伝達フレームワークを紹介する。
クライアントのデータプライバシを保護しながら、LLMからSLMへのドメイン固有の知識転送を可能にする。
提案されたFDKTフレームワークは、プライバシー予算が10未満のSLMのタスクパフォーマンスを約5%改善する。
論文 参考訳(メタデータ) (2024-05-23T06:14:35Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Investigating Continual Pretraining in Large Language Models: Insights
and Implications [9.591223887442704]
本稿では,大規模言語モデル(LLM)における継続学習の進化領域について考察する。
我々の主な重点は、LLMに様々なドメインからの新たな情報を統合する能力を持たせるために設計された、連続的なドメイン適応型事前訓練である。
モデルサイズが学習の効率性や忘れに及ぼす影響や、新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-27T10:47:24Z) - Fine-tuning Large Enterprise Language Models via Ontological Reasoning [5.12835891233968]
大きな言語モデル(LLM)はタスク固有のトレーニングデータのおかげで、さまざまな目標に適応するためのテクニックとして微調整を利用する。
LLMファインチューニングのためのタスクとドメイン固有のコーパスを構築するために、存在論的推論の力を利用する新しいニューロシンボリックアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-19T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。