論文の概要: Source Prompt: Coordinated Pre-training of Language Models on Diverse
Corpora from Multiple Sources
- arxiv url: http://arxiv.org/abs/2311.09732v1
- Date: Thu, 16 Nov 2023 10:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:23:30.557026
- Title: Source Prompt: Coordinated Pre-training of Language Models on Diverse
Corpora from Multiple Sources
- Title(参考訳): ソースプロンプト:複数ソースからの多様なコーパス上での言語モデルの協調事前学習
- Authors: Yipei Xu, Dakuan Lu, Jiaqing Liang, Xintao Wang, Yipeng Geng, Yingsi
Xin, Hengkui Wu, Ken Chen, ruiji zhang, Yanghua Xiao
- Abstract要約: プレトレーニング言語モデル(PLM)は、NLPの分野で新しいパラダイムを確立している。
最も人気があり成功した方法の1つは、モデルと事前学習コーパスのサイズを継続的にスケールアップすることである。
本稿では,事前学習および微調整段階において,データソースのモデルに明示的にプロンプトするソースプロンプト(SP)を提案する。
- 参考スコア(独自算出の注目度): 48.11449016012105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have established the new paradigm in the
field of NLP. For more powerful PLMs, one of the most popular and successful
way is to continuously scale up sizes of the models and the pre-training
corpora. These large corpora are generally obtained by converging smaller ones
from multiple sources, they are thus growing increasingly diverse. However, the
side-effects of these colossal converged corpora remain understudied. In this
paper, we identify the disadvantage of heterogeneous corpora from multiple
sources for pre-training PLMs. Towards coordinated pre-training on diverse
corpora, we further propose source prompts (SP), which explicitly prompt the
model of the data source at the pre-training and fine-tuning stages. Results of
extensive experiments demonstrate that PLMs pre-trained with SP on diverse
corpora gain significant improvement in various downstream tasks.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、NLPの分野で新しいパラダイムを確立している。
より強力なplmの場合、最も人気があり成功した方法の1つは、モデルのサイズとトレーニング済みコーパスを継続的にスケールアップすることである。
これらの大きなコーパスは、一般的に複数のソースからより小さなコーパスを収束させることで得られる。
しかし、これらの余剰収束コーパスの副作用はいまだ検討されていない。
本稿では,PLMの事前学習を行う複数のソースから異種コーパスの欠点を同定する。
さらに,各種コーパスにおける事前学習の協調に向けて,事前学習および微調整段階におけるデータソースのモデルを明確に促進するソースプロンプト(SP)を提案する。
広範囲な実験の結果,SPで事前学習したPLMは,様々な下流タスクにおいて顕著な改善が得られた。
関連論文リスト
- SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - The Future of Large Language Model Pre-training is Federated [15.237418036900582]
我々は,LLM事前学習のための新しいトレーニングパラダイムの調査と開発を可能にする,Photonと呼ばれるスケーラブルなデプロイメントシステムを提案する。
数十億のパラメータを持つLCMを事前学習するために、プライベートデータソースと計算資源とのコラボレーションに関心のある組織がPhotonを利用できることを示す。
さらに,モデルサイズによるフェデレーショントレーニング尺度の有効性を示すとともに,限られた資源を用いて数十億規模のフェデレーションLLMをトレーニングするためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-17T15:27:52Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Multiple Physics Pretraining for Physical Surrogate Models [42.19323262199993]
物理代理モデルのための自己回帰型タスク非依存型事前学習手法である多重物理事前学習(MPP)を導入する。
我々は,幅広い流体力学のベンチマークを用いて,事前学習と下流作業に対するアプローチの有効性を検証した。
下流タスクでは、MPPを訓練したモデルを微調整することで、新しい物理の複数の時間ステップでより正確な予測が可能になることを実証する。
論文 参考訳(メタデータ) (2023-10-04T17:29:19Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Knowledge Inheritance for Pre-trained Language Models [57.51305807391381]
我々は「知識継承(KI)」という新しい事前学習フレームワークを導入する。
KIは、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に訓練する。
KIは生涯学習と知識伝達を十分に支援できることを示す。
論文 参考訳(メタデータ) (2021-05-28T14:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。