論文の概要: Yi: Open Foundation Models by 01.AI
- arxiv url: http://arxiv.org/abs/2403.04652v1
- Date: Thu, 7 Mar 2024 16:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:25:29.941387
- Title: Yi: Open Foundation Models by 01.AI
- Title(参考訳): Yi: 01.AIによるオープンファンデーションモデル
- Authors: 01.AI: Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei
Zhang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng
Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Tao Yu, Wen Xie, Wenhao
Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yuchi Xu, Yudong
Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, Zonghong Dai
- Abstract要約: Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
- 参考スコア(独自算出の注目度): 42.94680878285869
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce the Yi model family, a series of language and multimodal models
that demonstrate strong multi-dimensional capabilities. The Yi model family is
based on 6B and 34B pretrained language models, then we extend them to chat
models, 200K long context models, depth-upscaled models, and vision-language
models. Our base models achieve strong performance on a wide range of
benchmarks like MMLU, and our finetuned chat models deliver strong human
preference rate on major evaluation platforms like AlpacaEval and Chatbot
Arena. Building upon our scalable super-computing infrastructure and the
classical transformer architecture, we attribute the performance of Yi models
primarily to its data quality resulting from our data-engineering efforts. For
pretraining, we construct 3.1 trillion tokens of English and Chinese corpora
using a cascaded data deduplication and quality filtering pipeline. For
finetuning, we polish a small scale (less than 10K) instruction dataset over
multiple iterations such that every single instance has been verified directly
by our machine learning engineers. For vision-language, we combine the chat
language model with a vision transformer encoder and train the model to align
visual representations to the semantic space of the language model. We further
extend the context length to 200K through lightweight continual pretraining and
demonstrate strong needle-in-a-haystack retrieval performance. We show that
extending the depth of the pretrained checkpoint through continual pretraining
further improves performance. We believe that given our current results,
continuing to scale up model parameters using thoroughly optimized data will
lead to even stronger frontier models.
- Abstract(参考訳): 我々は,強力な多次元能力を示す一連の言語およびマルチモーダルモデルであるyiモデルファミリを紹介する。
Yi モデルは 6B と 34B の事前訓練言語モデルに基づいており、チャットモデル、200K 長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
当社のベースモデルは、mmluのような幅広いベンチマークで強力なパフォーマンスを達成し、alpacaevalやchatbot arenaといった主要な評価プラットフォームで、微調整されたチャットモデルが強力な人間好み率を提供します。
スケーラブルなスーパーコンピューティングインフラストラクチャと古典的なトランスフォーマーアーキテクチャを基盤として、Yiモデルの性能は、主にデータエンジニアリングの取り組みによるデータ品質に起因しています。
事前学習のために,逐次データ重複と品質フィルタリングパイプラインを用いて,英語と中国語コーパスの3.1兆トークンを構築する。
微調整には、複数のイテレーションで小さな(10K未満)命令データセットを精査し、すべてのインスタンスが機械学習エンジニアによって直接検証されるようにします。
視覚言語については、チャット言語モデルと視覚トランスフォーマーエンコーダを組み合わせることで、視覚表現を言語モデルの意味空間に合わせるようにモデルを訓練する。
さらに, 軽量な連続的事前学習により, コンテキスト長を200kまで拡張し, 強力なニードル・イン・ア・ヘイスタック検索性能を示す。
継続事前学習により事前学習したチェックポイントの深さを延ばすことにより,さらなる性能向上が期待できる。
現在の結果を考えると、高度に最適化されたデータを使用してモデルパラメータをスケールアップし続けることが、より強力なフロンティアモデルにつながると考えています。
関連論文リスト
- Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。
本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T02:12:34Z) - NLLB-CLIP -- train performant multilingual image retrieval model on a
budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文 参考訳(メタデータ) (2023-09-04T23:26:11Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A
Large-Scale Generative Language Model [35.75234515196426]
本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。
MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
論文 参考訳(メタデータ) (2022-01-28T08:59:57Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。