論文の概要: EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data
- arxiv url: http://arxiv.org/abs/2312.15696v1
- Date: Mon, 25 Dec 2023 11:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:52:44.359338
- Title: EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data
- Title(参考訳): EcomGPT-CT:半構造化データを用いたEコマース大規模言語モデルの継続的な事前学習
- Authors: Shirong Ma, Shen Huang, Shulin Huang, Xiaobin Wang, Yangning Li,
Hai-Tao Zheng, Pengjun Xie, Fei Huang and Yong Jiang
- Abstract要約: 大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
- 参考スコア(独自算出の注目度): 67.8302955948861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) pre-trained on massive corpora have exhibited
remarkable performance on various NLP tasks. However, applying these models to
specific domains still poses significant challenges, such as lack of domain
knowledge, limited capacity to leverage domain knowledge and inadequate
adaptation to domain-specific data formats. Considering the exorbitant cost of
training LLMs from scratch and the scarcity of annotated data within particular
domains, in this work, we focus on domain-specific continual pre-training of
LLMs using E-commerce domain as an exemplar. Specifically, we explore the
impact of continual pre-training on LLMs employing unlabeled general and
E-commercial corpora. Furthermore, we design a mixing strategy among different
data sources to better leverage E-commercial semi-structured data. We construct
multiple tasks to assess LLMs' few-shot In-context Learning ability and their
zero-shot performance after instruction tuning in E-commerce domain.
Experimental results demonstrate the effectiveness of continual pre-training of
E-commerce LLMs and the efficacy of our devised data mixing strategy.
- Abstract(参考訳): 大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
しかし、これらのモデルを特定のドメインに適用することは、ドメイン知識の欠如、ドメイン知識を活用する能力の制限、ドメイン固有のデータフォーマットへの不適切な適応など、依然として重大な課題を生んでいる。
本研究は,LLMをスクラッチからトレーニングする余剰コストと,特定のドメイン内の注釈付きデータの不足を考慮して,Eコマースドメインを例に,LLMのドメイン固有の継続事前トレーニングに着目した。
具体的には,ラベルなし一般コーパスとe-commercialコーパスを用いたllmへの継続的な事前トレーニングの影響について検討する。
さらに,e-commercial semi-structured dataをより活用するために,異なるデータソース間の混合戦略を設計する。
電子商取引分野における命令チューニング後のllmsの学習能力とゼロショット性能を評価するために,複数のタスクを構築した。
実験結果は,eコマースllmの継続的な事前学習の有効性と,提案するデータ混合戦略の有効性を示す。
関連論文リスト
- Learning Beyond the Surface: How Far Can Continual Pre-Training with LoRA Enhance LLMs' Domain-Specific Insight Learning? [4.390998479503661]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
しかし、ドメイン固有のデータセットからより深い洞察を抽出し、内部化する能力は、まだ探索されていない。
本研究は, インサイトラーニングにおけるLCMの能力を高めるために, 連続的事前学習がいかに有効かを検討する。
論文 参考訳(メタデータ) (2025-01-29T18:40:32Z) - Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。
これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。
勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文 参考訳(メタデータ) (2025-01-26T15:12:06Z) - Unified Parameter-Efficient Unlearning for LLMs [25.195126838721492]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクに対する高度な理解と推論を可能にする。
これは、モデルが不注意に機密情報や望ましくない情報を保持および拡散する可能性があるため、重要なプライバシーとセキュリティ上の懸念を提起する。
本稿では,非学習タスクを体系的に分類し,影響関数を用いた高精度な調整を行う,新しいインスタンス単位のアンラーニングフレームワークLLMEraserを紹介する。
論文 参考訳(メタデータ) (2024-11-30T07:21:02Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - A Practical Guide to Fine-tuning Language Models with Limited Data [9.413178499853156]
事前訓練されたLarge Language Models (LLM) を採用することは、膨大なデータ要件にもかかわらず、自然言語処理(NLP)における事実上の標準となっている。
限られたデータを用いたLLMの学習に焦点をあてた最近の研究の急増に触発された本研究では、データ不足の下流タスクにおけるモデル性能を最適化するための、近年のトランスファー学習アプローチについて調査する。
論文 参考訳(メタデータ) (2024-11-14T15:55:37Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Investigating LLM Applications in E-Commerce [17.854070801235217]
大規模言語モデル(LLM)は、特にeコマースにおける様々なアプリケーションにおける自然言語処理に革命をもたらした。
本稿では,電子商取引分野におけるLLMの有効性を考察し,様々な規模の公開電子商取引データセットを用いたオープンソースのLLMモデルの構築に焦点をあてる。
電子商取引特化業務において,テキスト内学習を用いた大規模LLMのニッチ産業応用の有効性について検討した。
論文 参考訳(メタデータ) (2024-08-23T00:57:37Z) - Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data [53.70870879858533]
フェデレートされたドメイン固有の知識伝達フレームワークを紹介する。
クライアントのデータプライバシを保護しながら、LLMからSLMへのドメイン固有の知識転送を可能にする。
提案されたFDKTフレームワークは、プライバシー予算が10未満のSLMのタスクパフォーマンスを約5%改善する。
論文 参考訳(メタデータ) (2024-05-23T06:14:35Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Fine-tuning Large Enterprise Language Models via Ontological Reasoning [5.12835891233968]
大きな言語モデル(LLM)はタスク固有のトレーニングデータのおかげで、さまざまな目標に適応するためのテクニックとして微調整を利用する。
LLMファインチューニングのためのタスクとドメイン固有のコーパスを構築するために、存在論的推論の力を利用する新しいニューロシンボリックアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-19T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。