論文の概要: Domain Adaptation of Foundation LLMs for e-Commerce
- arxiv url: http://arxiv.org/abs/2501.09706v1
- Date: Thu, 16 Jan 2025 17:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:38.784296
- Title: Domain Adaptation of Foundation LLMs for e-Commerce
- Title(参考訳): 電子商取引におけるファウンデーションLLMのドメイン適応
- Authors: Christian Herold, Michael Kozielski, Tala Bazazo, Pavel Petrushkov, Hadi Hashemi, Patrycja Cieplicka, Dominika Basaj, Shahram Khadivi,
- Abstract要約: E-Llamaモデル:E-コマース領域に適応した80億と70億のパラメーター大言語モデルを示す。
e-Llamaモデルは、Llama 3.1ベースモデルをドメイン固有データの1兆個のトークンで継続的に事前訓練することで得られる。
トレーニング設定を慎重に選択すると、Llama 3.1モデルは、一般的なドメインタスクにおいて大きなパフォーマンスを犠牲にすることなく、新しいドメインに適応できることを示す。
- 参考スコア(独自算出の注目度): 6.635504010728861
- License:
- Abstract: We present the e-Llama models: 8 billion and 70 billion parameter large language models that are adapted towards the e-commerce domain. These models are meant as foundation models with deep knowledge about e-commerce, that form a base for instruction- and fine-tuning. The e-Llama models are obtained by continuously pretraining the Llama 3.1 base models on 1 trillion tokens of domain-specific data. We discuss our approach and motivate our choice of hyperparameters with a series of ablation studies. To quantify how well the models have been adapted to the e-commerce domain, we define and implement a set of multilingual, e-commerce specific evaluation tasks. We show that, when carefully choosing the training setup, the Llama 3.1 models can be adapted towards the new domain without sacrificing significant performance on general domain tasks. We also explore the possibility of merging the adapted model and the base model for a better control of the performance trade-off between domains.
- Abstract(参考訳): E-Llamaモデル:E-Commerceドメインに適応した80億と70億のパラメーター大言語モデルを示す。
これらのモデルは、eコマースに関する深い知識を持つ基礎モデルとして意図されており、教育と微調整の基盤となっている。
e-Llamaモデルは、Llama 3.1ベースモデルをドメイン固有データの1兆個のトークンで継続的に事前訓練することで得られる。
我々は我々のアプローチについて議論し、一連のアブレーション研究でハイパーパラメータの選択を動機づける。
モデルがeコマースドメインにどの程度うまく適合しているかを定量化するために、多言語でeコマース固有の評価タスクセットを定義し、実装する。
トレーニング設定を慎重に選択すると、Llama 3.1モデルは、一般的なドメインタスクにおいて大きなパフォーマンスを犠牲にすることなく、新しいドメインに適応できることを示す。
また、ドメイン間のパフォーマンストレードオフをよりよく制御するために、適応モデルとベースモデルを統合する可能性についても検討する。
関連論文リスト
- From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - ChipNeMo: Domain-Adapted LLMs for Chip Design [19.43613652552849]
ChipNeMoは、産業用チップ設計のための大規模言語モデル(LLM)の応用を探求することを目的としている。
ドメイン適応型トークン化、ドメイン適応型継続事前トレーニング、ドメイン固有命令とのモデルアライメント、ドメイン適応型検索モデルを採用する。
論文 参考訳(メタデータ) (2023-10-31T22:35:58Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - AdaptDHM: Adaptive Distribution Hierarchical Model for Multi-Domain CTR
Prediction [4.299153274884263]
本稿では,適応分布階層モデル (Adaptive Distribution Hierarchical Model, AdaptDHM) という,エレガントで柔軟なマルチディストリビューション・モデリング手法を提案する。
本モデルでは, 予測精度が向上し, トレーニング期間中の時間コストは, 他のモデルに比べて50%以上低下する。
論文 参考訳(メタデータ) (2022-11-22T09:10:37Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文 参考訳(メタデータ) (2021-06-25T07:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。