論文の概要: LiLiuM: eBay's Large Language Models for e-commerce
- arxiv url: http://arxiv.org/abs/2406.12023v1
- Date: Mon, 17 Jun 2024 18:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:16:57.233671
- Title: LiLiuM: eBay's Large Language Models for e-commerce
- Title(参考訳): LiLiuM:eBayのeコマースのための大規模言語モデル
- Authors: Christian Herold, Michael Kozielski, Leonid Ekimov, Pavel Petrushkov, Pierre-Yves Vandenbussche, Shahram Khadivi,
- Abstract要約: 大規模言語モデル (LLM) のLiLiuM シリーズについて紹介する: 1B, 7B, 13B パラメータモデル。
これにより、eBayは、ライセンス、データ、語彙、アーキテクチャを含むモデルのすべての側面を完全にコントロールできる。
LiLiuM LLMは、一般およびeコマースドメインから3兆個の多言語テキストのトークンで訓練されている。
- 参考スコア(独自算出の注目度): 6.819297537500464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the LiLiuM series of large language models (LLMs): 1B, 7B, and 13B parameter models developed 100% in-house to fit eBay's specific needs in the e-commerce domain. This gives eBay full control over all aspects of the models including license, data, vocabulary, and architecture. We expect these models to be used as a foundation for fine-tuning and instruction-tuning, eliminating dependencies to external models. The LiLiuM LLMs have been trained on 3 trillion tokens of multilingual text from general and e-commerce domain. They perform similar to the popular LLaMA-2 models on English natural language understanding (NLU) benchmarks. At the same time, we outperform LLaMA-2 on non-English NLU tasks, machine translation and on e-commerce specific downstream tasks. As part of our data mixture, we utilize the newly released RedPajama-V2 dataset for training and share our insights regarding data filtering and deduplication. We also discuss in detail how to serialize structured data for use in autoregressive language modeling. We provide insights on the effects of including code and parallel machine translation data in pre-training. Furthermore, we develop our own tokenizer and model vocabulary, customized towards e-commerce. This way, we can achieve up to 34% speed-up in text generation on eBay-specific downstream tasks compared to LLaMA-2. Finally, in relation to LLM pretraining, we show that checkpoint averaging can further improve over the best individual model checkpoint.
- Abstract(参考訳): 1B、7B、13Bパラメータモデルは、eBayのeコマース領域における特定のニーズに合うように、100%社内で開発された。
これにより、eBayは、ライセンス、データ、語彙、アーキテクチャを含むモデルのすべての側面を完全にコントロールできる。
これらのモデルは、細調整と命令チューニングの基礎として使われ、外部モデルへの依存をなくすことを期待しています。
LiLiuM LLMは、一般およびeコマースドメインから3兆個の多言語テキストのトークンで訓練されている。
それらは、英語の自然言語理解(NLU)ベンチマークで人気のあるLLaMA-2モデルと似ている。
同時に、非英語NLUタスク、機械翻訳、電子商取引特化下流タスクにおいてLLaMA-2を上回ります。
データミックスの一部として、新たにリリースされたRedPajama-V2データセットを使用して、データのフィルタリングと重複に関する洞察を共有します。
また,自己回帰言語モデリングにおける構造化データのシリアライズ方法についても詳細に論じる。
事前学習におけるコードと並列機械翻訳データの影響について考察する。
さらに,電子商取引用にカスタマイズされた独自のトークンとモデル語彙を開発する。
これにより、LLaMA-2と比較してeBay固有のダウンストリームタスクでテキスト生成を最大34%高速化できます。
最後に,LLM事前学習に関して,最良個々人のチェックポイントよりも,チェックポイント平均化がさらに向上することを示す。
関連論文リスト
- Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。
この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。
本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:52:09Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes [2.0109318570325847]
ソフトウェア分野の特定の組織からTMを用いたLlama 3モデルの微調整の影響について検討する。
トレーニングセット毎にモデルを微調整し,自動メトリクス,BLEU,chrF++,TER,COMETに基づいて評価する。
以上の結果から,全指標にまたがるより大きなデータセットによる翻訳性能の向上が示された。
論文 参考訳(メタデータ) (2024-09-05T12:06:38Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Tuning Large language model for End-to-end Speech Translation [7.297914077124909]
本稿では,E2E-STタスクを最適化した大規模マルチモーダルモデルであるLSTを紹介する。
MuST-C 音声翻訳ベンチマークの実験結果は、En-De/En-Fr/En-Es 言語ペアの LST-13B BLEU スコアが 30.39/41.55/35.33 であり、以前のモデルを超え、新しい最先端技術を確立したことを示している。
論文 参考訳(メタデータ) (2023-10-03T13:43:50Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。